dhd

@dhd_index

dhd 暂无简介

所有 个人的 我参与的
Forks 暂停/关闭的

    dhd/DrissionPage forked from g1879/DrissionPage

    基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法简洁而优雅,代码量少。

    dhd/datalink forked from leon/datalink

    DataLink是一款基于Actor模型开发的数据流程编排工具,通过拖拽方式创建数据处理规则,支持最少两个节点的集群模式。

    dhd/CloudEon forked from dromara/CloudEon

    CloudEon 将基于 Kubernetes 的资源安装部署开源大数据组件,实现开源大数据平台的容器化运行,您可减少对于底层资源的运维关注

    dhd/hetu-core forked from openLooKeng/hetu-core

    openLooKeng is a drop in engine which enables in-situ analytics on any data, anywhere, including geographically remote data sources.

    dhd/SparkSQL-Internal forked from 嘻嘻哈哈/SparkSQL-Internal

    dhd/SparkInternals forked from 巴音布鲁克之王/SparkInternals

    《大数据处理框架Apache Spark设计与实现》

    dhd/lemon-guide forked from 柠檬夕桐/lemon-guide

    收纳操作系统、JAVA、算法、数据库、中间件、解决方案、架构、DevOps和大数据等技术栈总结!

    dhd/db-tutorial forked from turnon/db-tutorial

    db-tutorial 是一个数据库教程。

    dhd/StarRocks forked from DaLake/StarRocks

    StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议。同时具备水平扩展,高可用、高可靠、易运维等特性。广泛用于实时数仓、OLAP 报表、数据湖分析等场景。

    dhd/Delta Lake forked from DaLake/Delta Lake

    Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。 具体而言,Delta Lake提供: Spark 上的 ACID 事务:可序列化的隔离级别可确保读取器永远不会看到不一致的数据。 可扩展的元数据处理:利用 Spark 分布式处理能力轻松处理包含数十亿文件的 PB 级表的所有元数据。 流式处理和批处理统一:Delta Lake 中的表是批处理表以及流式处理源和接收器。流数据引入、批量历史回填、交互式查询都开箱即用。 架构强制:自动处理架构变体,以防止在引入期间插入不良记录。 时间旅行:数据版本控制支持回滚、完整的历史审计跟踪和可重现的机器学习实验。 更新插入和删除:支持合并、更新和删除操作,以实现复杂的用例,如更改数据捕获、缓慢更改维度 (SCD) 操作、流式更新插入等。

    dhd/Hudi forked from DaLake/Hudi

    Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常适合流工作负载,而且还允许您创建高效的增量批处理管道。阅读文档以获取更多用例描述,并查看谁在使用Hudi,以了解世界上一些最大的数据湖(包括Uber,Amazon,ByteDance,Robinhood等)如何通过Hudi改变其生产数据湖。 Apache Hudi可以很容易地在任何云存储平台上使用。Hudi的高级性能优化,使分析工作负载与任何流行的查询引擎,包括Apache Spark,Flink,Presto,Trino,Hive等更快。

    dhd/Iceberg forked from DaLake/Iceberg

    Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。

    dhd/Kyuubi forked from DaLake/Kyuubi

    数据湖上的 Serverless SQL Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供 Serverless SQL。

    dhd/spark-kernel forked from Gitee 极速下载/spark-kernel

    Spark Kernel 的最主要目标:提供基础给交互应用程序联系和使用 Apache Spark

    dhd/solr-book_1 forked from v若水/solr-book

    Solr book Example Code

    dhd/ushas forked from 扎扎/ushas

    This project is used for tracking lineage when using spark. Our team is aimed at enhancing the ability of column relation during logical plan analysis.Spark列级血缘(字段血缘)关系处理。

    dhd/RemoteShuffleService forked from alibaba/RemoteShuffleService

    dhd/sparktuning forked from 演员/sparktuning

    spark3.0性能调优的demo code

    dhd/flink-tuning forked from aggaadfr/flink-tuning

    flink调优代码

搜索帮助