PySpark 创建 CSV 不起作用,仅 _SUCCESS 文件

Posted

技术标签:

【中文标题】PySpark 创建 CSV 不起作用,仅 _SUCCESS 文件【英文标题】:PySpark creating CSV does not work, _SUCCESS file only 【发布时间】:2021-07-01 13:09:40 【问题描述】:

这可能是一个愚蠢的问题,但我刚刚开始学习 spark,现在我面临着我的第一个问题,我无法通过书籍和谷歌解决......

我正在使用 Zeppelin 并尝试使用服务器日志进行一些分析。

我的 df 看起来像:

现在我想使用以下代码将其保存为 CSV:

df_reduced.write.format("csv").mode("overwrite").save("/home/hduser/tmp")

我总是得到一个新的 _SUCCESS 文件,但没有 CSV:

我做错了什么?

提前致谢。

【问题讨论】:

你的 spark 是否使用 yarn/hdfs 运行? 是的。但我想在本地保存这个文件。 【参考方案1】:

我可以解决它

df_pd = df_reduced.toPandas()
df_pd.to_csv("test.csv")

但这感觉有点像解决方法。

如果有任何建议我如何在没有 Pandas 的情况下解决它,我会很高兴。

【讨论】:

以上是关于PySpark 创建 CSV 不起作用,仅 _SUCCESS 文件的主要内容,如果未能解决你的问题,请参考以下文章

Dataframe.rdd.map().collect 在 PySpark 中不起作用 [重复]

在 pySpark (2.3) 中读取本地 csv 文件

将 pyspark Rdd 写入 csv 文件

从文本文件创建数据框,在 pyspark 中不起作用

使用 PySpark 读取 CSV 时是不是可以仅覆盖一种列类型?

pyspark 将模式应用于 csv - 仅返回空值