离线数仓之业务日志采集工具DataX
Posted Mr.zhou_Zxy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了离线数仓之业务日志采集工具DataX相关的知识,希望对你有一定的参考价值。
Datax入门学习
一 Datax介绍
Datax是一个异构数据源离线同步工具,致力于实现包括关系型数据库RDBMS(mysql,Oracle等)、
HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定的数据同步功能。
- DataX计理念
为了解决异构数据源同步问题,DataX将复杂的网络同步链路变成了星型数据链路,
DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,
只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
Github官方网址:https://github.com/alibaba/DataX
二 DataX框架
DataX作为一个离线数据的同步框架,采用Framework + plugin架构搭建。
将数据源读取和写入抽象成为Reader和Writer的过程,并作为框架中的主要构件。
- 组件1:FrameWork用于连接Reader和Writer,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题。
- 组件2:reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
- 组件3:Writer为数据写入模块,负责不断的像Framework请求数据,并将数据写入到HDFS
Sqoop框架比较
- 将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制
三 DataX插件
DataX当前已经具有相对全面的插件体系,主流的RDBMS数据库,NOSQL,大数据计算系统都支持接入。
Data Framework提供简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,
就能无缝的对接其他的数据源。
数据同步一般是指一个数据源的数据发生改变时,其他相关的数据源的数据也会发生响应的改变,
数据同步有五种实现方案,根据具体的需求不同辞去不同的方案,DataX可以实现
tips:
不同数据源有什么不同?
DataX插件?
四 DataX3.0六大优势
1 可靠的数据质量监控
- 完美解决数据传输个别类型失真问题
- 提供作业全链路的流量、数据量运行时的监控
- 提供脏数据探测
2 丰富的数据转换功能
在数据传输过程中,可以轻松完成数据脱敏、补全、过滤等数据转换功能,
还提供自动groovy函数,让用户自定义转换函数。
3 精准的速度控制
新版3.0提供通道、纪录流、字节流三种流控模式,可以随意控制作业速度,让作业库在可承受范围内达到最佳速度。
"speed":{
"channel":,
"byte":1048576,
"reccord":10000
}
4 强劲的同步性能
在该版本中,每一种插件都具有一种或者多种切分策略,都能将作业合理切分成多个Task并行执行,
单机多线程执行模型可以让DataX速度随并发线性增长。
5 健壮的容错机制
DataX作业极易收到外部因素干扰,网络闪断,数据源不稳定等因素容易让同步的作业报错停止。
在该版本中重点完善框架和插件的稳定性。
6 极简的使用体验
-
易用
下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
快速入门:https://github.com/alibaba/DataX/blob/master/userGuid.md
-
详细
DataX在运行中会打印大量的信息,包括传输速度,Reader,Writer性能,进程CPU,JVM和GC情况等等。
五 DataX快速入门
1 DataX安装需求
- Linux
- JDK(1.8以上,推荐1.8)
- Python(推荐Python2.6.X)
- Apache Maven 3.x (Compile DataX)
2 工具部署
-
方法一、直接下载DataX工具包:DataX下载地址
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ cd {YOUR_DATAX_HOME}/bin $ python datax.py {YOUR_JOB.json}
自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
-
方法二、下载DataX源码,自己编译:DataX源码
(1)、下载DataX源码:
$ git clone git@github.com:alibaba/DataX.git
(2)、通过maven打包:
$ cd {DataX_source_code_home} $ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包成功,日志显示如下:
[INFO] BUILD SUCCESS [INFO] ----------------------------------------------------------------- [INFO] Total time: 08:12 min [INFO] Finished at: 2015-12-13T16:26:48+08:00 [INFO] Final Memory: 133M/960M [INFO] ----------------------------------------------------------------- + 打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下: $ cd {DataX_source_code_home} $ ls ./target/datax/datax/ bin conf job lib log log_perf plugin script tmp
以上是关于离线数仓之业务日志采集工具DataX的主要内容,如果未能解决你的问题,请参考以下文章