如何将多个HDFS文件压缩为一个
Posted
技术标签:
【中文标题】如何将多个HDFS文件压缩为一个【英文标题】:How to compress multiple HDFS files into one 【发布时间】:2021-12-18 18:54:26 【问题描述】:我正在使用write.parquet()
开发 Zeppelin 集群 (w Spark),我最终得到了多个 Parquet 文件。
我想知道,是否可以将它们合并到一个文件中?或者我每次都必须使用path="/folder/*"
?
【问题讨论】:
【参考方案1】:使用重新分区():
df.repartition(1).write.parquet(path)
或者,更好的是,coalesce()
df.coalesce(1).write.parquet(path)
【讨论】:
谢谢,我一定会尽快尝试,但现在或集群已关闭:(以上是关于如何将多个HDFS文件压缩为一个的主要内容,如果未能解决你的问题,请参考以下文章