如何通过 pyspark 以 gzip 格式保存 spark RDD

Posted

技术标签:

【中文标题】如何通过 pyspark 以 gzip 格式保存 spark RDD【英文标题】:How to save a spark RDD in gzip format through pyspark 【发布时间】:2015-12-10 14:04:17 【问题描述】:

所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(以gz格式)并保存而不是将其保存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

【问题讨论】:

看看here 我可以建议您使用parquet 吗? :) 【参考方案1】:

saveAsTextFile 方法采用一个可选参数,指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

【讨论】:

以上是关于如何通过 pyspark 以 gzip 格式保存 spark RDD的主要内容,如果未能解决你的问题,请参考以下文章