如何通过 pyspark 以 gzip 格式保存 spark RDD
Posted
技术标签:
【中文标题】如何通过 pyspark 以 gzip 格式保存 spark RDD【英文标题】:How to save a spark RDD in gzip format through pyspark 【发布时间】:2015-12-10 14:04:17 【问题描述】:所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(以gz格式)并保存而不是将其保存为文本文件。
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
【问题讨论】:
看看here 我可以建议您使用parquet 吗? :) 【参考方案1】:saveAsTextFile
方法采用一个可选参数,指定压缩编解码器类:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
【讨论】:
以上是关于如何通过 pyspark 以 gzip 格式保存 spark RDD的主要内容,如果未能解决你的问题,请参考以下文章
如何以正确的格式以科学记数法显示 PySpark 数据框中的列
pyspark:如何以“yyyy-MM-dd HH”格式按日期列分区