基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法简洁而优雅,代码量少。
DataLink是一款基于Actor模型开发的数据流程编排工具,通过拖拽方式创建数据处理规则,支持最少两个节点的集群模式。
CloudEon 将基于 Kubernetes 的资源安装部署开源大数据组件,实现开源大数据平台的容器化运行,您可减少对于底层资源的运维关注
openLooKeng is a drop in engine which enables in-situ analytics on any data, anywhere, including geographically remote data sources.
StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议。同时具备水平扩展,高可用、高可靠、易运维等特性。广泛用于实时数仓、OLAP 报表、数据湖分析等场景。
Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。 具体而言,Delta Lake提供: Spark 上的 ACID 事务:可序列化的隔离级别可确保读取器永远不会看到不一致的数据。 可扩展的元数据处理:利用 Spark 分布式处理能力轻松处理包含数十亿文件的 PB 级表的所有元数据。 流式处理和批处理统一:Delta Lake 中的表是批处理表以及流式处理源和接收器。流数据引入、批量历史回填、交互式查询都开箱即用。 架构强制:自动处理架构变体,以防止在引入期间插入不良记录。 时间旅行:数据版本控制支持回滚、完整的历史审计跟踪和可重现的机器学习实验。 更新插入和删除:支持合并、更新和删除操作,以实现复杂的用例,如更改数据捕获、缓慢更改维度 (SCD) 操作、流式更新插入等。
Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常适合流工作负载,而且还允许您创建高效的增量批处理管道。阅读文档以获取更多用例描述,并查看谁在使用Hudi,以了解世界上一些最大的数据湖(包括Uber,Amazon,ByteDance,Robinhood等)如何通过Hudi改变其生产数据湖。 Apache Hudi可以很容易地在任何云存储平台上使用。Hudi的高级性能优化,使分析工作负载与任何流行的查询引擎,包括Apache Spark,Flink,Presto,Trino,Hive等更快。
Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。
数据湖上的 Serverless SQL Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供 Serverless SQL。
Spark Kernel 的最主要目标:提供基础给交互应用程序联系和使用 Apache Spark
This project is used for tracking lineage when using spark. Our team is aimed at enhancing the ability of column relation during logical plan analysis.Spark列级血缘(字段血缘)关系处理。