Kettle使用_31 CSV文件输入跳过前几(首)行之过滤记录

Posted ShenLiang2025

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Kettle使用_31 CSV文件输入跳过前几(首)行之过滤记录相关的知识,希望对你有一定的参考价值。

Kettle使用_31 CSV输入结合过滤记录

需求:对csv文件输入不在第一行的情况进行数据装载,这里假定数据在第6行。

解决方法:通过CSV文件输入结合过滤记录组件,即在CSV文件输入里指定行号,在过滤记录里通过条件刷选记录并输出到文件或者数据库内。

#Ⅱ 步骤-Step by Step

-- 1 准备个csv文件,内容见下,列分隔符是制表符即"\\t"(可以是任意单字符分隔符),行分隔符是换行("LF")。

12  36  78

17  91  16

24  83  50

14  38  67

id  seq age name

1   2   18  John

2   3   37  Mike

3   4   27  Doris

# 注,上述准备的数据列数并不统一,即第5行之前都是3列,之后是4列。

-- 2 打开Kettle,新建立个转换,从"输入"里拖个"CSV文件输入"组件,双击该组件进行配置。

-- 3 详细配置内容有:

    a) 文件名

    b) 列分隔符

    c) 在"行号字段"里起个名字,如rn

    d) 字段映射里填写字段名和类型

-- 4 在"流程"里拖个"过滤记录"组件,SHIFT连接"CSV文件输入"与"过滤记录"组件,双击该组件进行配置。

    a) 编写记录过滤条件,即rn>=6,

    b) 指定TRUE时对应的步骤,此步骤连接文本输出或者表输出。当前演示为表输出。

-- 5 在"输出"里拖个"表输出"组件,SHIFT连接"过滤记录"与"表输出"组件,双击该组件进行配置。

    a) 勾选"指定数据库字段"

    b) 在"数据库字段"选项选中rn后删除该字段

-- 6 保存转换后运行验证结果

完整流程:

以上是关于Kettle使用_31 CSV文件输入跳过前几(首)行之过滤记录的主要内容,如果未能解决你的问题,请参考以下文章

python读取csv文件跳过前几行

在读取 Python 文件中的行时跳过前几行

python脚本 从第二行开始读取 文件读取 跳过第一行 跳过前几行

使用向量化时如何跳过前n行

使用正则表达式和 sed 时跳过前 n 行?

在 Bash 中打印文件,跳过前 X 行 [重复]