定时任务管理工具,可提供spark、yarn大数据平台分析任务的运行与日志收集;集成阿里 datax 3.0 ETL工具,并提供图形界面的管理;集中式管理操作 shell 脚本的运行与日志收集。 提供以任务组的方式管理定时任务,可将前后连接比较紧密的任务放入一个组中,系统将按照顺序依次执行。
从Json配置里面读取并创建Spark任务并生成DAG流程图,不用再根据不同的需求,开发不同的Spark程序。 目前支持的业务有,指定HDFS文件目录,过滤行,过滤列。Join操作,Union操作,Group分组汇聚操作(max,min,count,sum,avg)。 可自定义输出目录和文件格式。
最近一年贡献:0 次
最长连续贡献:0 日
最近连续贡献:0 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。