将 pyspark Rdd 写入 csv 文件
Posted
技术标签:
【中文标题】将 pyspark Rdd 写入 csv 文件【英文标题】:Writing pyspark Rdd into csv file 【发布时间】:2016-08-11 06:49:25 【问题描述】:如何将我的 pyspark RDD 的内容写入 csv 文件。我正在使用下面的代码,但它不起作用:
df.saveAsTextFile(r'D:\asdf.csv')
【问题讨论】:
How to write the resulting RDD to a csv file in Spark python的可能重复 【参考方案1】:使用来自 Databricks 的 spark-csv 包:https://github.com/databricks/spark-csv
df.save('df.csv', 'com.databricks.spark.csv')
【讨论】:
以上是关于将 pyspark Rdd 写入 csv 文件的主要内容,如果未能解决你的问题,请参考以下文章
将 PySpark 数据帧写入 Parquet 文件时出现 Py4JJavaError
如何使 pyspark 和 ML(无 RDD)与大型 csv 一起工作?
尝试在 PySpark 中使用 partitionBy 写入 csv 时出错
Pyspark - 将数据帧写入 2 个不同的 csv 文件