Talend 数据转换

Posted GuGu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Talend 数据转换相关的知识,希望对你有一定的参考价值。

2个系统都有客户信息,产品信息. 要从一个系统a导出数据给另一个系统b用. 有2个方法.

1.在a系统的客户表,产品表加一个字段,记录b系统对应的ID,导出时直接用sql转换了.

2. 用ETL工具转换. a系统导出的客户信息,产品信息的csv, 在ETL工具里,有一个ID对应表, 查找替换.

我们试试用Talend来做吧.

 Talend 有个去重复的工具tUniqRow

查找替换工具tReplaceList

放了2个tReplaceList, 一个查找客户信息,一个查找替换产品信息.

有2个地方要注意的: csv是以什么符号分隔的, talend默认是用;分割的,如果你从数据库导出,可能是\\t或,分隔,要在组件设定里修改

查找替换的2个字段,类型要相同,我刚试了用Integer和String,2个不同的字段类型,总是找不到的.

 

测试了一下速度,每秒10条数据,太慢了.还是不实用,还是用第一种方法从DB里Join一下,速度快多了.

 

以上是关于Talend 数据转换的主要内容,如果未能解决你的问题,请参考以下文章

在 Talend 中将所有 MYSQL 组件转换为 Greenplum 组件

Talend 从字符串转换为 bigdecimal

Talend Data Integration 中的选角日期

复制到运行良好但不加载数据 gzip 文件

如何从当前日期中减去一天然后在 Hive 中转换为字符串

大数据平台架构