怎么使用kettle进行增量数据的抽取

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么使用kettle进行增量数据的抽取相关的知识,希望对你有一定的参考价值。

场景介绍:
我要从Oracle库中把Oracle_A表中的数据同步到DB2库中的DB2_A表中,使用kettle。
现在我有多张表需要同步,有的表有数据加载时间字段,有的没有数据加载时间字段。
请教各位大佬应该怎么实现?希望各位大佬不吝赐教!跪谢!

使用工具: 
kettle

首先需要考虑的问题是不可能是全量进行数据的拷贝,数据量如此庞大! 
那么就得考虑增量,何为增量去百度。。哈哈哈

至于如何增量抽取数据,有很多种办法,我这里示范的是通过时间去增量抽取(因为刚好别人的库中每条记录的时间记录的都相当详细,所以我认为这个比较好)。

首先创建好实例库:

SQL> desc timejob; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

SQL> desc timejob_bak; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

kettle中有自动生成UUID的功能,所以直接拿过来耍,为了简洁方便,字段使用比较少。 
首先利用kettle自动生成测试数据: 


主要生成UUID和当前系统时间到timejob表中(每隔2s执行一次),我们后续的操作都是对这张表中的数据进行一个备份。

下面第二步就是抽取该表中的数据到一个备份表中,timejob_bak。 


这里由于是我第一次操作,比较简单,就直接上图了。。

获得上次操作时间和系统时间存到变量中: 
 
这里的开始时间是通过表数据选项获得上一次操作的最终结束时间,以作为我此次增量抽取的开始时间。第二个变量是获得系统的当前时间。

根据时间抽取timejob表中的数据: 

获取变量的写法: 

此处获取的变量就是上一步存入的变量,下面的抽取增量数据就是一个sql,从timejob表中抽取数据,存数据就是一个表输出。 
抽取数据sq
参考技术A 如果你用的是INNODB数据库,有一个最简单有效的调整,就是将INI文件里面的下面参数调整:
原始:
innodb_flush_log_at_trx_commit=1
调整为:
innodb_flush_log_at_trx_commit=2
参考技术B 按确定建,就可以了,试试吧。 参考技术C 用手 参考技术D 卍解人家的人吗啡

以上是关于怎么使用kettle进行增量数据的抽取的主要内容,如果未能解决你的问题,请参考以下文章

kettle 6.1 按时间增量抽取数据

kettle 6.1 按时间循环增量抽取数据

kettle实现单表增量抽取

kettle实现单表增量抽取

Kettle-7.0增量抽取订单数据

Kettle-7.0增量抽取订单数据