基于现在接触的ETL工具(datax和kettle)做个小总结

Posted guitarlong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于现在接触的ETL工具(datax和kettle)做个小总结相关的知识,希望对你有一定的参考价值。

现阶段需要做数据库同步工作,目前调研了两个工具datax和kettle

这两者各有优缺点,基本的就不总结了。现在说说一些关键点:

基本方面:

1.datax适合做数据同步工作;kettle适合数据清洗,转换工作

目前成型的可视化界面,datax推荐datax web,kettle后期维护用的界面推荐jenkins/kettle-manager简单

2.datax对于数据库压力比较小,全量读取速度优于kettle

3.对于一些方案的可行性,小数据量的选择全量对比,10w数据量大概3s完成插入更新全量抽取过程,还是比较快的。小数据量的情况下差别不大

4.目前生产可行方案可以选择datax+datax web/kettle

5.具体一些方案https://blog.csdn.net/inthat/article/details/84146346(虽然是datax的,但是kettle也适用)

6.日志方案是对于大量数据的最优选择,mysql用maxwell抓取日志或者上边提供的方案,oracle用ogg,sqlserver目前不清楚需要再找

7.保证kettle后期稳定的情况下用windows自带的定时任务或者Linux中用crontab

一些小坑:mysql 8.0驱动jar包方面更换,导致不能用,需要注意驱动

datax用的python版本要注意,2.6+版本和3.0+版本有语法差别(记得是括号问题)

centos 7可以通过添加打印机方式避免开机总是黑屏

后续继续补充

以上是关于基于现在接触的ETL工具(datax和kettle)做个小总结的主要内容,如果未能解决你的问题,请参考以下文章

数据处理 大数据数据抽取 ETL 工具 DataX KettleSqoop

数据处理 大数据数据抽取 ETL 工具 DataX KettleSqoop

六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)

搞懂数据仓库:常用ETL工具方法

ETL工具 — Data Integration (Kettle) 下载安装

ETL之Kettle