将 pyspark Rdd 写入 csv 文件

Posted

技术标签:

【中文标题】将 pyspark Rdd 写入 csv 文件【英文标题】:Writing pyspark Rdd into csv file 【发布时间】:2016-08-11 06:49:25 【问题描述】:

如何将我的 pyspark RDD 的内容写入 csv 文件。我正在使用下面的代码,但它不起作用:

df.saveAsTextFile(r'D:\asdf.csv')

【问题讨论】:

How to write the resulting RDD to a csv file in Spark python的可能重复 【参考方案1】:

使用来自 Databricks 的 spark-csv 包:https://github.com/databricks/spark-csv

df.save('df.csv', 'com.databricks.spark.csv')

【讨论】:

以上是关于将 pyspark Rdd 写入 csv 文件的主要内容,如果未能解决你的问题,请参考以下文章

将 PySpark 数据帧写入 Parquet 文件时出现 Py4JJavaError

如何使 pyspark 和 ML(无 RDD)与大型 csv 一起工作?

尝试在 PySpark 中使用 partitionBy 写入 csv 时出错

Pyspark - 将数据帧写入 2 个不同的 csv 文件

将 pandas 数据框转换为 PySpark RDD 时出现问题?

PySpark:如何将具有 SparseVector 类型的列的 Spark 数据帧写入 CSV 文件?