kettle中的合并记录使用记录

Posted 八稚女

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kettle中的合并记录使用记录相关的知识,希望对你有一定的参考价值。

注意:合并记录的使用前提是2个数据源都按比较关键字排过序,否则合并之后的数据不准确,可能会多出很多。

该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。

需要设置的参数:


旧数据来源:旧数据来源的步骤

新数据来源。新数据来源的步骤

标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。

1. “identical” – 旧数据和新数据一样

2. “changed” – 数据发生了变化;

3. “new” – 新数据中有而旧数据中没有的记录

4. “deleted” –旧数据中有而新数据中没有的记录

关键字段:用于定位两个数据源中的同一条记录。

比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。

合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。

注意:

旧数据和新数据需要事先按照关键字段排序。

旧数据和新数据要有相同的字段名称。

例子:

旧数据:

field1, field2

1, 1

2, 2

3, 3

4, 4


新数据

field1, field2

1, 1

2, 9

5, 5


设置:标志字段是flag,关键字段是 field1, 比较字段是field2


合并后的数据

field1; field2; flag

1; 1; identical

2; 9; changed

3; 3; deleted

4; 4; deleted

5; 5; new

 

以上是关于kettle中的合并记录使用记录的主要内容,如果未能解决你的问题,请参考以下文章

kettle合并记录 新旧表明明关键字段id一致结果老数据标记删除,新数据标记插入,求解

Kettle合并记录步骤

kettle怎样同步文件夹下最新的那个文件

在kettle中使用遍历来更新记录中的字段

kettle使用过程记录(详细)

kettle spoon多张表怎么合并到一张表中