如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录
Posted
技术标签:
【中文标题】如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录【英文标题】:How to skip footer/trailer record while loading csv file to hive table 【发布时间】:2019-09-23 03:48:49 【问题描述】:文件是逗号分隔的 CSV。
存在用于提取 CSV 文件的框架。 来自同一文件的标题被跳过:
Df.Option(“header”, “true”)
但是在同一个spark包中的预告片,我无法跳过它同样的逻辑。
请帮助处理此数据提取。
【问题讨论】:
你可以尝试在hive表中设置这个属性,TBLPROPERTIES('skip.header.line.count'='1', 'skip.footer.line.count'='1'); # 当 1 行作为页眉或页脚跳过时。这样有什么顾虑吗? 【参考方案1】:请查看此回复:
spark how to remove last line in a csv file
来自同一回复的副本:
val total = df.count();
val withoutFooter = df.zipWithIndex()
.filter(x => x._2 < total - 3)
.map (x => x._1)
【讨论】:
以上是关于如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录的主要内容,如果未能解决你的问题,请参考以下文章