28 Star 0 Fork 0

哈西里里/data

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
datax定时任务.txt 1.96 KB
一键复制 编辑 原始数据 按行查看 历史
老王 提交于 2017-11-22 10:37 . Upload datax定时任务.txt
一、linux上定制定时任务
cd /etc //找到文件夹
crontab -e //编辑定时任务
0 12 * * * root python /root/wwx510165/datax/bin/datax.py /root/wwx510165/datax/job/hdfss.json >>(输出日志的地方及时间格式) 2>&1 //前面是设置时间,第一个是分钟,第二个是小时,
第三个是每月的第几号,第四个是一年中的第几个月,第五个是一周的星期几。给定身份root 运行时一般是要root的身份。后面是要执行的命令。
设置人物并重启命令,等待执行。
命令有错误,别的命令都可以执行,但是datax的确迟迟执行不了,在比对中,网上再看一下原因。
怀疑是环境变量的问题,要导入环境变量至执行脚本crontab中。
在最前面要加上. /etc/profile;/bin/sh 来引入环境变量。corntab 不可执行py 写一个shell脚本用来执行py然后在corntab中去执行shell脚本,完美!!
将多个作业放在同一个sh文件中然后定时执行这个文件达到多表同时上传的目的,目前担心的问题,是作业量过大是否会导致传输困难引起失败,当然也可以写多个sh文件然后定时在不同的时间去执行
文件,这时就需要知道,每一个sh文件中最多放多大的工作量,而这些工作完成又需要多少时间。是不是一个叫做急速秒传的。下午可以具体的试验,另外就是断点续传的问题,如果是处于关机状态,是否可以在指定时间去运行
目测是不可以,但是也只是猜测。试验一下吧。哇哦 试验结果是可以的。还是不能靠猜。。。
结论:关机状态可以实现定时传输,在同一个sh脚本中执行多个作业是可行的,但是其实作业模式并不是多线同时进行,而是排队作业,只有在一个作业完成时,才会继续完成下一个作业。
所以,理论上可以将所有的作业同时放在一个sh脚本中,而去定时执行这个脚本,考虑到执行脚本需要花费的时间,可以大致的估算从执行开始到执行结束需要多久,从而避免作业冲突,发生未知的问题。
关于,断点续传问题,现在还仅仅是个理论,一般的来说是不会出现问题的,因为定时任务了在关机状态下一样可以执行,那么就可以避免很多因为网络或者电源的突发事故引起的作业中断,那么
现在就剩下了未知原因,比如程序异常,作业冲突,数据库变更等问题,但是这些都是很少见的,考虑到如果是真正的将此项目投入到工作中,由于其连续不间断的工作,该发生的错误总会发生故应该
引起大家的注意。遇到问题要及时分析和解决。及时删除已经同步但尚未完成的信息,然后再次同步需要的信息。
暂时,就做这么多吧。
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Java
1
https://gitee.com/haxilili/data.git
git@gitee.com:haxilili/data.git
haxilili
data
data
master

搜索帮助