datstage处理文本文件中存在多余换行符的数据

Posted mb61cd4c97cd9d5

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了datstage处理文本文件中存在多余换行符的数据相关的知识,希望对你有一定的参考价值。


在使用ds读取文件时可能会遇到字段中包含换行符的情况,在并行作业中并没有内置的方法来处理这中情况。ds读取文件的时候是根据行尾字符来定位一行是否结束,它一次读取一行数据,然后解析这些列。

解决此问题的几个解决方法是:

•使用并行作业中的Extend Source组件,用sed、awk等预处理文件,将文件中多余的换行符处理掉

•使用作业中的预处理功能,调用脚本或其他自定义程序将文件提前清洗一次。


以上是关于datstage处理文本文件中存在多余换行符的数据的主要内容,如果未能解决你的问题,请参考以下文章

Kettle导入数据到Hive 出现多余的几行全部是null值的情况

用正则表达式,清除文章中多余的换行和空白字符

如何在没有多余换行符的情况下从 BeautifulSoup 输出 XML?

请教一个批量删除文本文件中多余回车或提取文本中前两行数据的shell脚本,请高手指点,万分感谢

如何逐行读取批处理文件中多余字符的文本文件?允许限制行长。(Windows,批处理脚本)

fgets()函数读取键盘,去掉换行符或丢弃多余的字符