kettle组件-转换

Posted zja001

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kettle组件-转换相关的知识,希望对你有一定的参考价值。

1:列转行
2:列转行
3:去除重复记录
      步骤名称:保持唯一性
      增加计数器到输出?:当勾选了此项,并在计数器字段后给予了名称,则将会在该字段下显示去掉的重复行数。
      字段名称:用来去重的字段,可选多个字段,表示多个字段都相同时表示重复。
      该功能类似与sql中的distinct关键字。
4:增加序列
      一个序列是在某个起始值和增量的基础之上,经常改变的整数值。可以使用数据库定义好的序列,也可以使用kettle决定的序列。
      kettle序列在同一个转换中是唯一使用的,每一次转换运行的时候,序列的值又会重新循环一次,从开始值开始。
      使用数据库序列:
   连接名称:选择数据库存在的连接名称。
      序列名称:数据库序列的名称。
      使用计数器来计算序列:如果想用kettle生成的序列,使用此项。
      计数器名称(可选):如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器名称,避免按照先后顺序通过多个步骤。
      起始值:序列的起始值。
      增量:序列的步长。
      最大值:序列的最大值。
5:字段选择
      字段选择中包含有三个页签:选择和修改,移除,元数据
      选择和修改:用于获取字段名称,并可以对名称进行修改,还可以修改其长度和精度。
      移除:移除字段后该字段将不会被预览查看到。
      元数据:可以修改字段名称,以及数据类型,长度,精度,格式等信息。但是,当在选择和修改中将某一字段的名称修改,要想
                     在元数据中继续修改则选择修改前的原字段名称,会提示找不到该字段,需要选择在选择修改页签中已经修改成的名称。
6:字符串替换
      将某个字段的某些字符替换成我们给定的字符。
      首先选择输入流字段,
      “输出流字段”自己命名(就是用来保存处理后的结果的字段,可以和输入流字段保持一致),可以选择正则表达式,
      “搜索”就是你希望被替换的字符,字符串,可以是一个正则表达式,
      “使用…替换”就是你期望用什么值替换被替换的部分,
      “设置为空串”就是将你被选择的部分用空替换
      “使用字段值替换”你可以使用现有的某个字段的值替换你期望被替换的部分,后面两个根据自己的需要进行选择。
 案例:
     1:转换/输入/生成记录-------自定义字段,类型,对应的值,生成记录可以按照指定的生成记录数生成值。
     2:转换/转换/字符串转换-----各种定义
 总:a:输入流字段----要被替换的字段的名称
        b: 输出流字段----替换后的新字段的名称
        c:  搜索-----------表示要被替换的字符或字符串
        d: 使用…替换----被替换的字符或字符串要被替换为
        e: 输出流字段为空-----此时替换将在原字段做改变
        f: 搜索为空------------每个字符前后都会视为空,为空的位置都会插入被替换字符或字符串
        g: 使用…替换为空-----搜索字符将会置空
        h: 熟悉kettle中的正则表达式
A:kettle中的正则表达式
     1:正则表达式仅用字符或者字符串表示-----包含该字符或者字符串的字符串都会被查询出来
     2:正则表达式中含有句点符号--------------句点符号可以匹配所有字符,包括空格和非字符符号
例如:t.n----匹配tan,ton,tmojn,tn
     3:正则表达式中包含方括号----------------只有包含中括号中的字符才能被匹配,方括号只允许匹配单个字符
例如t[asdf]n----匹配tan,tsn,tdn
     4: 使用圆括号加/的方式匹配单个或多个字符-----例如:t(a/s/d/f/oo)n----此时toon就会被匹配上
     5:表示匹配次数的符号,这些符号用于确定仅靠该符号左边的符号出现的次数
     *表示0次或多次
     +表示1次或多次
     ?表示0次或1次
     {n}表示恰好n次
     {n,m}表示n次到m次
     6:正则表达式中的连字符“-”表示一个范围
     7:”^“表示否的意思,表示不匹配该字符
7:将字段值设置为常量
      字段:获取字段名称
      值替换:用常量值代替原值,此时无论原值有多少行,该行的所有值都会被一个值所替换。
      转换掩码:用于设置日期类型的格式。
      设为空串:若设为空串则该列值全显示为空。
8:拆分字段
      需要拆分的字段:选择需要拆分的字段
      分隔符:拆分字段间的结束符号
      新的字段:看看能拆分的最大数,依据最大数量来定需要设置的新字段的数量,也可往大的设置,截取不到将输出NULL,也可以往
      小的设置,这样的话值部分截取不到。
 
 
 

































































以上是关于kettle组件-转换的主要内容,如果未能解决你的问题,请参考以下文章

Kettle之数据抽取转换装载

kettle组件-转换

kettle 怎样从转换中过的job中定义的变量

kettle庖丁解牛第34篇之常用转换组件之Add XML

kettle 表输入 对结果集进行操作

kettle庖丁解牛第26篇之删除