如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录

Posted 2023-03-23

技术标签:

【中文标题】如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录【英文标题】：How to skip footer/trailer record while loading csv file to hive table 【发布时间】：2019-09-23 03:48:49 【问题描述】：

文件是逗号分隔的 CSV。

存在用于提取 CSV 文件的框架。来自同一文件的标题被跳过：

Df.Option(“header”, “true”)

但是在同一个spark包中的预告片，我无法跳过它同样的逻辑。

请帮助处理此数据提取。

【问题讨论】：

你可以尝试在hive表中设置这个属性，TBLPROPERTIES('skip.header.line.count'='1', 'skip.footer.line.count'='1'); # 当 1 行作为页眉或页脚跳过时。这样有什么顾虑吗？ 【参考方案1】：

请查看此回复：

spark how to remove last line in a csv file

来自同一回复的副本：

val total = df.count();
val withoutFooter = df.zipWithIndex()
                        .filter(x => x._2 < total - 3)
                        .map (x => x._1)

【讨论】：

以上是关于如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录的主要内容，如果未能解决你的问题，请参考以下文章