大数据DataX:DataX安装及使用
Posted Lansonli
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据DataX:DataX安装及使用相关的知识,希望对你有一定的参考价值。
文章目录
DataX安装及使用
一、安装及使用
DataX3.0只能安装到Linux中,需要有JDK8、Python环境(推荐Python2.6,Centos7自带python为2版本),如果自己下载DataX源码进行编译,那么需要的Maven3.x版本,这里我们直接下载DataX编译好的安装包。
tar -zxvf ./datax.tar.gz
下载地址:https://github.com/alibaba/DataX。下载之后直接解压到某一路径下完成安装,进入bin目录,即可运行同步作业:
cd YOUR_DATAX_HOME/bin
python datax.py YOUR_JOB.json
二、入门案例
DataX自带了一个“streamreader”读入数据、“streamwriter”写出数据的自检脚本,可以运行此脚本检查DataX是否正常运行。
文件路径为“ YOUR_DATAX_HOME/job/job.json”,执行自检脚本命令为:
python YOUR_DATAX_HOME/bin/datax.py YOUR_DATAX_HOME/job/job.json
python /export/server/datax/bin/datax.py /export/server/datax/job/job.json
关于以上“job.json”文件的解释如下:
注意:以上“ErrorLimit”设置指的是在Datax中Job支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值(record值)或者脏数据占比阈值(percentage值),当Job传输过程出现的脏数据大于用户指定的数量/百分比,DataX Job报错退出。
- 📢博客主页:https://lansonli.blog.csdn.net
- 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
- 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
- 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
以上是关于大数据DataX:DataX安装及使用的主要内容,如果未能解决你的问题,请参考以下文章