kettle 处理来自两个数据流的数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kettle 处理来自两个数据流的数据相关的知识,希望对你有一定的参考价值。

1. Join
  我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么样做.
  这是新手最容易犯错的一个地方,A数据流跟B数据流能够Join,肯定是它们包含join key ,join key 可以是一个字段也可以是多个字段。如果两个数据流没有join key ,那么它们就是在做笛卡尔积,一般很少会这样。
2. 多数据源输入,(可能是文本或是两个以上源数据库),用database join 操作.
------------------------------------以上是网上找来的----------------------------------
我自己试验的结果,database join是需要数据库连接的,根本不能处理来自文本的数据流。
我要处理两个数据流,A包含fieldA , field2 , field3 字段,B包含fieldB , field5 , field6,其中fieldA和fieldB要做比较,同时在两个filed里面的数据被筛选出来,并将对应的field2、3、5、6输出到文本中去,该怎么做?

参考技术A 使用Merge Join,按照你说的“同时在两个filed里面的数据被筛选出来”,应该使用内连接【INNER】方式,然后再在后续步骤中将自己需要的字段输出。 参考技术B kettle是按照数据流进行执行的,如果数据流错误,正常就会终止执行,但是如果在输出步骤发生错误,可以定义错误处理(输出控件-右键选择),将错误数据进行输出

kettle交换数据,插入更新报错,怎么解决?

参考技术A 能保证另外一头是插到电脑的网卡里面的而不是交换机端口里面,如果一条线连接了同一台交换机的两个接口,就回导致严重的广播风暴引发网络中断。

以上是关于kettle 处理来自两个数据流的数据的主要内容,如果未能解决你的问题,请参考以下文章

kettle交换数据,插入更新报错,怎么解决?

kettle入门 之kettle增量方案全量比对取增量-依据唯一标示

kettle 表输入 对结果集进行操作

数据预处理基于Kettle的字符串数据清洗Kettle的字段清洗Kettle的使用参照表集成数据

kettle合并记录 新旧表明明关键字段id一致结果老数据标记删除,新数据标记插入,求解

kettle的mongodb输入多个字段想加