使用Kettle多表数据增量导入详细文档

Posted 2023-02-18 Z-hhhhh

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了使用Kettle多表数据增量导入详细文档相关的知识，希望对你有一定的参考价值。

案例是两个表增量同步到一张表，
当然也可以单表或多表增量同步。

kettle安装

1）安装 jdk，版本建议1.8及以上

2）下载kettle压缩包，因kettle为绿色软件，解压缩到任意本地路径即可

3）双击Spoon.bat,启动图形化界面工具，就可以直接使用了

mysql驱动连接

将对5.1.37版本的mysql连接驱动放到kettle 安装目录下面的lib文件夹下，然后重启kettle 的客户端Spoon

新建

数据库连接默认只对本转换有效，换一个转换以后，这个连接就没法用了，还需要新建数据库连接，所以我们需要将建好的这个数据库连接进行共享下，共享以后，其他的转换也能用我们提前建好的这个数据库连接了。

同上，建第二个连接，并共享(黑色加粗)

新建mergeInfo表

本表用来存merge的时间戳的，每次用时间进行对比，即可用于增量导入数据

建表语句如下(示例放在了上述中的一个库里)

CREATE TABLE `mergeInfo` (
  `Id` int NOT NULL AUTO_INCREMENT,
  `dataBaseName` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `tableName` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `lastMergeTime` datetime NOT NULL,
  PRIMARY KEY (`Id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8 ROW_FORMAT=DYNAMIC COMMENT='增量导入时间戳';

其中 lastMergeTime 字段就是用来记录上一次增量导入的时间

插入第一次的时间

INSERT INTO siger_standard.mergeInfo
(`dataBaseName`, tableName, lastMergeTime)
VALUES('xxxdbName', 'xxxxtableName', '2000-07-01 18:14:13');

-- 第一次的时间写的尽量早一些，比源表中最小的时间还要小
-- 如果源表采用的是时间戳格式，可以在后面增量插入时加一个函数转换，或者 mergeInfo 表加一个字段为timestamp,与此处的lastMergeTime类似

整体思路

① 先说上分支，从mergeInfo中获取源表A增量导入到目标表C的上一次时间，然后获取源表A的最后时间，作为下一次增量导入的开始时间

②下面的分支，拿到上次时间后，查询源表A中所有时间＞刚才的数据，插入到目标表C中

③另外一张源表B 再增加一个上述任务，由于mergeInfo中有dataBaseName和tableName，所以互不影响，能够完成多表增量导入到统一表中

具体案例

案例为数据库DB1中源表A，导入到 DB1中目标C，操作时灵活替换。

新建转换一

右击转换，新建一个转换，ctrl+s保存，命名如DB1_tableA

增加表输入

核心对象-输入-表输入，直接拖到右侧的操作台

双击，进入编辑，编辑如下内容

增加表输入2

按住shift 不松开，单机前一个表输入，再点一下后一个表输入，松开shift，把他们连起来，后面每加节点就要和前面的连起来，连接方式相同，不再赘述。

编辑如下内容

增加输出

核心对象-输出-插入/更新

编辑如下

其中红色框的地方需要特别注意

加一个表输入

用最开始的getLastMergeTime指向这个新增的表输入，会出现如下的弹窗，选择【复制】。

编辑以下内容
sql内容就是源表A所有的字段，WHERE是用来比较的时间，?是从上一个导入的

增加输出

和上一个输出一样的【插入/更新】

编辑以下内容

右边的获取字段是可以直接获取的，比自己写省事多了。

最后效果如下：

最后把这个转换保存

执行测试

如上图，即为成功，若未成功，请检查操作与上述步骤是否一致。

上图步骤度量可以看到每次执行的数据量有多少

新建转换二

新建方式同上，只需要改把源表A改成源表B即可，不再赘述。

新建定时job

新建作业(job)

添加开始
设置时间

编辑时间间隔，图示是五分钟执行一次。
[记得把重复勾选上]
设置转换

设置如下图

作业名自定义，红框内选择转换一的文件。同理设置第二个转换。

保存此job

效果如下

测试执行

左上角执行(run)

按照示例，五分钟之后开始执行任务，每五分钟执行一次。

执行如下图：

补充：

kjb格式是kettle的job, ktr格式是转换

使用注意项

参数

kettle使用的是Java，可以手动修改JVM的参数

在spoon.sh中 [ PENTAHO_DI_JAVA_OPTIONS ]

-Xms1024m :  设置JVM最大可用内存为1024M
-Xmx1024m ：  设置JVM促使内存为1024m。此值可以设置与:Xmx相同、以避免每次垃圾回收完成后JVM重新分配内存。

若报错

启动时报错ignoring option MaxPermSize=256M

JDK8中,MaxPermSize已不再支持。

提交记录数据量

可以根据数据量大小来设置Commitsize：1000~50000

连接池

连接较多时可以使用连接池。

DB连接——编辑已建好的连接——连接池

根据需求设置连接池参数

以上是关于使用Kettle多表数据增量导入详细文档的主要内容，如果未能解决你的问题，请参考以下文章