DataX使用入门

Posted mynameisjinxiaokai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DataX使用入门相关的知识,希望对你有一定的参考价值。

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 mysql、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心

此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功

二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  YOUR_DATAX_HOME/bin
$ python datax.py YOUR_JOB.json

方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX

datax的目录结构

bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)

conf目录存放一些配置文件

job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)

lib是依赖的一些jar包

log目录存放job文件的执行日志

plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持

如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。

使用Datax执行job文件

python datax.py job文件

txt文件传向mysql的Job文件模板如下(Mysql为例):


	"job": 
		"content": [
			"reader": 
				"name": "txtfilereader",
				"parameter": 
					"column": [
							"index": 0,
							"type": "long"
						,
						
							"index": 1,
							"type": "string"
						,
						
							"index": 2,
							"type": "string"
						,
						
							"index": 3,
							"type": "string"
						,
						
							"index": 4,
							"type": "string"
						,
						
							"index": 5,
							"type": "string"
						,
						
							"index": 6,
							"type": "string"
						,
						
							"index": 7,
							"type": "string"
						,
						
							"index": 8,
							"type": "string"
						,
						
							"index": 9,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						,
						
							"index": 10,
							"type": "string"
						,
						
							"index": 11,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						,
						
							"index": 12,
							"type": "long"
						
					],
					"encoding": "UTF-8",
					"fieldDelimiter": ",",
					"path": [
						"C:/Users/jxk/Desktop/tst.txt"
					]
				
			,
			"writer": 
				"name": "mysqlwriter",
				"parameter": 
					"column": [
						"id",
						"project_type",
						"attach_type",
						"attach_name",
						"attach_url",
						"attach_key",
						"attach_hash",
						"attach_size",
						"created_by",
						"created_date",
						"last_updated_by",
						"last_updated_date",
						"version"
					],
					"connection": [
						"jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
						"table": [
							"comm_attachment"
						]
					],
					"password": "274100",
					"preSql": [
						"delete from comm_attachment"
					],
					"session": [

					],
					"username": "root",
					"writeMode": "insert"
				
			
		],
		"setting": 
			"speed": 
				"channel": "5"
			
		
	

C:/Users/jxk/Desktop/tst.txt文件内容如下

1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0

数据库建库脚本如下

CREATE TABLE `comm_attachment` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `project_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
  `attach_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
  `attach_name` varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
  `attach_url` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
  `attach_key` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
  `attach_hash` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
  `attach_size` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
  `created_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
  `created_date` timestamp NULL DEFAULT NULL COMMENT '创建时间',
  `last_updated_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
  `last_updated_date` timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
  `version` int DEFAULT NULL COMMENT '乐观锁-版本号',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'

python执行语句

python datax.py C:\\Users\\jxk\\Desktop\\abc.json

执行结果:

在数据库查看数据:

语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) ----
-查看MySQL版本:

mysql> select version();
+------------+
| VERSION()  |
+------------+
| 8.0.16     |
+------------+

-查看Datax插件MySQL驱动版本:

/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar

下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar

Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:

C:/Users/jxk/Desktop/tst.txt

错误写法:

C:\\\\Users\\\\jxk\\\\Desktop\\\\tst.txt

以上是关于DataX使用入门的主要内容,如果未能解决你的问题,请参考以下文章

Datax-web入门配置与启动

DataX 快速入门

DataX 快速入门

大数据DataX:DataX安装及使用

离线数仓之业务日志采集工具DataX

DataX 实战案例 -- 使用datax实现将hdfs数据导入到mysql表中