怎么用Kettle做不同数据库的数据更新

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么用Kettle做不同数据库的数据更新相关的知识,希望对你有一定的参考价值。

数据库Test1中有表A,其中有字段a,b,c,d,数据库Test2中有表B,其中有字段a,b,c,d,e,f,g,现在需要用Kettle实现下面功能:
如果根据表A的某条记录中a,b,c的值,能够在表B中找到一条记录与之完全一致,则将表B中这条记录的d值更新,
如果找不到这样一条记录,则在表B中插入一条新值,a,b,c,d与表A中对应,e,f,g为空。
注意:我需要用Kettle实现!最好有图解

参考技术A 下载pdi-ce-4.4.0-stable.zip,解压到文件夹,打开data-integration中的Spoon.bat
2
出现欢迎界面后来到Repository Connection窗口,选择建立一个新的repository,随后出现“资源库信息”窗口:

在“资源库信息”窗口中选择新建一个数据库连接,弹出“Database Connection”窗口:

在其中输入Connection Name, Host Name, Database Name, Port Number, User Name,Password信息即可建立连接,完成之后在Repository Connection窗口以admin用户名登陆。
新建一个名为cscgTransTest的Transformation,从“核心对象”中将两个“表输入”和一个“插入/更新”拖入到cscgTransTest中,并建立它们之间的连接,如下图所示:

在cscgTransTest中建立一个新的数据库连接ttt,通过表输入“max_createtime”从目标数据库ttt中获取某个表中最新数据的建立时间:
SELECT max(trunc(createtime)) FROMumdata.toeventmedia
在cscgTransTest中建立一个新的数据库连接testdb,以表输入“max_createtime”的查询结果替代表输入“umdata.toeventmedia”中的变量,执行SQL语句从数据库testdb中获取需要插入或者更新到ttt数据库的数据
SELECT * FROMumdata.toeventmedia where trunc(createtime) >= trunc(?)
在“插入/更新”中选择“数据库连接”、“目标模式”、“目标表”等信息,“用来查询的关键字”中的字段用来查询某条记录是否在目标表中存在,不存在则插入记录;如果存在,则继续比较其他字段是否与流里的字段值相同,如果相同则不执行任何操作,如果不同则更新“更新字段”中所列字段。
“用来查询的关键字”所列字段是该表的primarykey,从而可以唯一标识一条记录。

分别为每一个表建立一个如上模式的转换步骤。
新建一个名为“cscgJobTest”的Job,在核心对象中将“START”和“Transformation”拖入cscgJobTest中,并建立两者之间的连接。

选中START中的“重复执行”,类型为“不需要定时”;在Transformation中将转换名设置为之前建立的“cscgTransTest”.
点击“Run this Job”运行。Job和Transformation的执行结果如如下:

在Windows下安装Kettle

  Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

  它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
 
1、安装JDK并配置环境变量。
  由于Kettle是用Java编写的,所以运行Kettle需要本地的JVM运行环境
  注意:Kettle7.0版本,必须配套使用JDK1.7及以上版本;
 
2、下载Kettle压缩包。
  下载地址:http://community.pentaho.com/projects/data-integration/ 
  Kettle是绿色软件,下载压缩包后减压到指定目录即可;
 
3、运行Kettle。
  减压后的文件,找到“/spoon.bat”文件并双击打开,即启动了Kettle的图形操作界面。
技术图片

 

 

 
 
  

以上是关于怎么用Kettle做不同数据库的数据更新的主要内容,如果未能解决你的问题,请参考以下文章

用kettle抽取数据,出现“仅能绑定要插入long列的long值”,怎么解决?请高手帮忙?

kettle交换数据,插入更新报错,怎么解决?

kettle怎样同步文件夹下最新的那个文件

kettle怎么连接mysql

Kettle

kettle数据同步如何更新