datax转移数据库可以返回进度吗
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了datax转移数据库可以返回进度吗相关的知识,希望对你有一定的参考价值。
参考技术A datax是开源的ETL工具,可根据需求自己做开发、实施和维护。支持多种数据库类型,可扩张性强,一张表的同步作业调起只需一行命令。笔者认为迁移的要点有二:①迁移目的表先建好,因datax做不了结构同步;②配置正确的json文件,一张表一个json文件。datax跨数据库同步常遇到的问题包括:
1、如何实现不同数据库的数据同步?
根据数据库类型,配置job中的reader、writer。官方支持多种数据库。每一张表的同步,需要配置一个json文件。需要手动创建目的表或者分区表。
2、如何指定数据同步方式,增量、全量?
官方文档writer模块中不同数据库的默认配置参数,有的数据库类型只有一种同步当时,有的必须指定WriteMode,postgrewriter只支持insert方式入库,mysql支持insert、replace方式写入,当目的表没有主键或者其他唯一约束时,insert、replace同步数据的结果是一样的。
3、如何提高同步效率?
调参,修改json文件中的 setting channel参数;针对大表的同步,可视实际需求和可行性做分区;
4、datax是否有事务控制
datax没有事务控制,但json中的一些配置参数能用起来。比如, jobsetting中的errorlimit,是对写入的脏数据的限制,一般设置为1,即一旦产生一条脏数据,便回滚此次写入。也可以利用起writer中的preSql、postSql。preSql即在写入数据前对目的表执行sql语句操作,postSql即在写入数据后对目的表进行操作。比如,preSql设置,写入数据前清空目的表,postSql设置写入后如果记录数与源表对不上,或者时间戳字段没有更新,则清空本次作业中写入该目的表的数据等。
5、datax迁移要求目的数据库先有对应的表,如何批量在目的数据库建表?
datax是通过代码编写规则,可以用python的第三方库编写脚本,远程连接目的数据库批量建表,sqlalchemy、pymysql等第三方库都可以用起来。
以上是关于datax转移数据库可以返回进度吗的主要内容,如果未能解决你的问题,请参考以下文章