如何将多个HDFS文件压缩为一个

Posted

技术标签:

【中文标题】如何将多个HDFS文件压缩为一个【英文标题】:How to compress multiple HDFS files into one 【发布时间】:2021-12-18 18:54:26 【问题描述】:

我正在使用write.parquet() 开发 Zeppelin 集群 (w Spark),我最终得到了多个 Parquet 文件。 我想知道,是否可以将它们合并到一个文件中?或者我每次都必须使用path="/folder/*"

【问题讨论】:

【参考方案1】:

使用重新分区():

df.repartition(1).write.parquet(path)

或者,更好的是,coalesce()

df.coalesce(1).write.parquet(path)

【讨论】:

谢谢,我一定会尽快尝试,但现在或集群已关闭:(

以上是关于如何将多个HDFS文件压缩为一个的主要内容,如果未能解决你的问题,请参考以下文章

如何将 Hadoop 目录压缩为单个 gzip 文件?

Linux命令:如何将多个文件及文件夹压缩为一个压缩文件

合并 HDFS 上的压缩文件

如何把一个压缩好的文件,拆分成几个压缩文件?

hadoop mapreduce开发实践之HDFS压缩文件(-cacheArchive)

用于压缩和解压缩 bzip2 中的 hdfs 数据的 Pig 脚本