离线数仓之业务日志采集工具DataX

Posted Mr.zhou_Zxy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了离线数仓之业务日志采集工具DataX相关的知识,希望对你有一定的参考价值。

Datax入门学习

一 Datax介绍

	Datax是一个异构数据源离线同步工具,致力于实现包括关系型数据库RDBMS(mysqlOracle等)、
HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定的数据同步功能。
  • DataX计理念
	为了解决异构数据源同步问题,DataX将复杂的网络同步链路变成了星型数据链路,
DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,
只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

在这里插入图片描述

Github官方网址:https://github.com/alibaba/DataX

二 DataX框架

在这里插入图片描述

	DataX作为一个离线数据的同步框架,采用Framework + plugin架构搭建。
将数据源读取和写入抽象成为ReaderWriter的过程,并作为框架中的主要构件。
  • 组件1:FrameWork用于连接Reader和Writer,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题。
  • 组件2:reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
  • 组件3:Writer为数据写入模块,负责不断的像Framework请求数据,并将数据写入到HDFS

Sqoop框架比较

在这里插入图片描述

  • 将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制

三 DataX插件

		DataX当前已经具有相对全面的插件体系,主流的RDBMS数据库,NOSQL,大数据计算系统都支持接入。
	Data Framework提供简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,
	就能无缝的对接其他的数据源。
		数据同步一般是指一个数据源的数据发生改变时,其他相关的数据源的数据也会发生响应的改变,
	数据同步有五种实现方案,根据具体的需求不同辞去不同的方案,DataX可以实现

tips:

不同数据源有什么不同?

DataX插件?

四 DataX3.0六大优势

1 可靠的数据质量监控

  • 完美解决数据传输个别类型失真问题
  • 提供作业全链路的流量、数据量运行时的监控
  • 提供脏数据探测

2 丰富的数据转换功能

		在数据传输过程中,可以轻松完成数据脱敏、补全、过滤等数据转换功能,
	还提供自动groovy函数,让用户自定义转换函数。

3 精准的速度控制

新版3.0提供通道、纪录流、字节流三种流控模式,可以随意控制作业速度,让作业库在可承受范围内达到最佳速度。
"speed":{
    "channel":,
    "byte":1048576,
    "reccord":10000
}

4 强劲的同步性能

	在该版本中,每一种插件都具有一种或者多种切分策略,都能将作业合理切分成多个Task并行执行,
单机多线程执行模型可以让DataX速度随并发线性增长。

5 健壮的容错机制

	DataX作业极易收到外部因素干扰,网络闪断,数据源不稳定等因素容易让同步的作业报错停止。
在该版本中重点完善框架和插件的稳定性。

6 极简的使用体验

  • 易用

    下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

    快速入门:https://github.com/alibaba/DataX/blob/master/userGuid.md

  • 详细

    DataX在运行中会打印大量的信息,包括传输速度,ReaderWriter性能,进程CPU,JVM和GC情况等等。
    

五 DataX快速入门

1 DataX安装需求

2 工具部署

  • 方法一、直接下载DataX工具包:DataX下载地址

    下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

    $ cd  {YOUR_DATAX_HOME}/bin
    $ python datax.py {YOUR_JOB.json}
    

    自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

  • 方法二、下载DataX源码,自己编译:DataX源码

    (1)、下载DataX源码:

    $ git clone git@github.com:alibaba/DataX.git
    

    (2)、通过maven打包:

    $ cd  {DataX_source_code_home}
    $ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
    

    打包成功,日志显示如下:

    [INFO] BUILD SUCCESS
    [INFO] -----------------------------------------------------------------
    [INFO] Total time: 08:12 min
    [INFO] Finished at: 2015-12-13T16:26:48+08:00
    [INFO] Final Memory: 133M/960M
    [INFO] -----------------------------------------------------------------
    
    
    + 打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:
    
    $ cd  {DataX_source_code_home}
    $ ls ./target/datax/datax/
    bin		conf		job		lib		log		log_perf	plugin		script		tmp
    
    
    
    
    

在这里插入图片描述

以上是关于离线数仓之业务日志采集工具DataX的主要内容,如果未能解决你的问题,请参考以下文章

离线数仓之Kerberos基本使用及问题记录

离线数仓之数据监控-Prometheus

离线数仓之数据监控-Grafana

实时数仓与离线数仓架构对比Flink消费流程

离线数仓

离线数仓同步数据