如何通过 pyspark 以 gzip 格式保存 spark RDD

Posted

技术标签:

【中文标题】如何通过 pyspark 以 gzip 格式保存 spark RDD【英文标题】:How to save a spark RDD in gzip format through pyspark 【发布时间】:2015-12-10 14:04:17 【问题描述】:

所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(以gz格式)并保存而不是将其保存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

【问题讨论】:

看看here 我可以建议您使用parquet 吗? :) 【参考方案1】:

saveAsTextFile 方法采用一个可选参数,指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

【讨论】:

以上是关于如何通过 pyspark 以 gzip 格式保存 spark RDD的主要内容,如果未能解决你的问题,请参考以下文章

如何以正确的格式以科学记数法显示 PySpark 数据框中的列

如何从 pyspark 数据框中更快地保存 csv 文件?

pyspark:如何以“yyyy-MM-dd HH”格式按日期列分区

如何在pyspark中更改DataFrame的hdfs块大小

Java对zip格式压缩和解压缩

我可以将 pyspark 数据框保存为哪些文件格式?