如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录

Posted

技术标签:

【中文标题】如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录【英文标题】:How to skip footer/trailer record while loading csv file to hive table 【发布时间】:2019-09-23 03:48:49 【问题描述】:

文件是逗号分隔的 CSV。

存在用于提取 CSV 文件的框架。 来自同一文件的标题被跳过:

Df.Option(“header”, “true”)

但是在同一个spark包中的预告片,我无法跳过它同样的逻辑。

请帮助处理此数据提取。

【问题讨论】:

你可以尝试在hive表中设置这个属性,TBLPROPERTIES('skip.header.line.count'='1', 'skip.footer.line.count'='1'); # 当 1 行作为页眉或页脚跳过时。这样有什么顾虑吗? 【参考方案1】:

请查看此回复:

spark how to remove last line in a csv file

来自同一回复的副本:

val total = df.count();
val withoutFooter = df.zipWithIndex()
                        .filter(x => x._2 < total - 3)
                        .map (x => x._1)

【讨论】:

以上是关于如何在将 csv 文件加载到配置单元表时跳过页脚/拖车记录的主要内容,如果未能解决你的问题,请参考以下文章

使用sed命令跳过页脚和标题

Parquet 文件加载到 Snowflake 时跳过标题

尝试将 hdfs 中的 csv 文件加载到配置单元表时未选择行

如何在亚马逊红移谱加载外部表时跳转结束几张唱片?

将 Excel 加载到没有标题的数据表中

使用 Python 加载表时,BigQuery 不会跳过 CSV 的标题行