[etl数据库同步]使用Kettle实现数据库同步

Posted 2021-02-28 sqlserver-mysql

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[etl数据库同步]使用Kettle实现数据库同步相关的知识，希望对你有一定的参考价值。

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。本经验主要介绍如何通过Kettle工具实现两个数据库的同步，只需要写少量SQL语句，步骤很多，但是实际上很简单，希望对你有帮助。

Kettle1

下载pdi-ce-4.4.0-stable.zip，解压到文件夹，打开data-integration中的Spoon.bat

出现欢迎界面后来到RepositoryConnection窗口，选择建立一个新的repository，随后出现“资源库信息”窗口：

技术图片步骤阅读3

在“资源库信息”窗口中选择新建一个数据库连接，弹出“DatabaseConnection”窗口：

技术图片步骤阅读4

在其中输入ConnectionName,HostName,DatabaseName,PortNumber,UserName,Password信息即可建立连接，完成之后在RepositoryConnection窗口以admin用户名登陆。

新建一个名为cscgTransTest的Transformation，从“核心对象”中将两个“表输入”和一个“插入/更新”拖入到cscgTransTest中，并建立它们之间的连接，如下图所示：

技术图片步骤阅读6

在cscgTransTest中建立一个新的数据库连接ttt，通过表输入“max_createtime”从目标数据库ttt中获取某个表中最新数据的建立时间：

SELECTmax(trunc(createtime))FROMumdata.toeventmedia

在cscgTransTest中建立一个新的数据库连接testdb，以表输入“max_createtime”的查询结果替代表输入“umdata.toeventmedia”中的变量，执行SQL语句从数据库testdb中获取需要插入或者更新到ttt数据库的数据

SELECT*FROMumdata.toeventmediawheretrunc(createtime)>=trunc(?)

在“插入/更新”中选择“数据库连接”、“目标模式”、“目标表”等信息，“用来查询的关键字”中的字段用来查询某条记录是否在目标表中存在，不存在则插入记录；如果存在，则继续比较其他字段是否与流里的字段值相同，如果相同则不执行任何操作，如果不同则更新“更新字段”中所列字段。

“用来查询的关键字”所列字段是该表的primarykey，从而可以唯一标识一条记录。

技术图片步骤阅读9

分别为每一个表建立一个如上模式的转换步骤。

新建一个名为“cscgJobTest”的Job，在核心对象中将“START”和“Transformation”拖入cscgJobTest中，并建立两者之间的连接。

技术图片步骤阅读11

选中START中的“重复执行”，类型为“不需要定时”；在Transformation中将转换名设置为之前建立的“cscgTransTest”.

点击“RunthisJob”运行。Job和Transformation的执行结果如如下：

技术图片步骤阅读步骤阅读END经验内容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)，建议您详细咨询相关领域专业人士。举报作者声明：本篇经验系本人依照真实经历原创，未经许可，谢绝转载。

以上是关于[etl数据库同步]使用Kettle实现数据库同步的主要内容，如果未能解决你的问题，请参考以下文章