如何通过 pyspark 以 gzip 格式保存 spark RDD

Posted 2023-04-15

技术标签:

【中文标题】如何通过 pyspark 以 gzip 格式保存 spark RDD【英文标题】：How to save a spark RDD in gzip format through pyspark 【发布时间】：2015-12-10 14:04:17 【问题描述】：

所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩（以gz格式）并保存而不是将其保存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

【问题讨论】：

看看here 我可以建议您使用parquet 吗？ :) 【参考方案1】：

saveAsTextFile 方法采用一个可选参数，指定压缩编解码器类：

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

【讨论】：

以上是关于如何通过 pyspark 以 gzip 格式保存 spark RDD的主要内容，如果未能解决你的问题，请参考以下文章