如何从 spark rdd map 和 reduce 操作写入单个文件

Posted 2023-03-16

技术标签:

【中文标题】如何从 spark rdd map 和 reduce 操作写入单个文件【英文标题】：How to write to a singlefile from from spark rdd map and reduce operations 【发布时间】：2020-02-21 13:11:40 【问题描述】：

我在应用映射后尝试写入文本文件，减少操作。下面的代码创建了 8 个文件，但我只需要一个文件

df3.rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

请建议如何将内容写入单个文件

【问题讨论】：

保存前使用 .coalesce(1) 【参考方案1】：

最好的选择是“合并”。 coalesce 方法减少了 DataFrame 中的分区数。

这是您问题的代码。

df3.coalesce(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

因为它会通过避免数据移动来提供良好的性能。请检查以下链接。

Spark - repartition() vs coalesce()

【讨论】：

【参考方案2】：

它正在创建多个文件，因为每个分区都是单独保存的。如果您需要文件夹中的单个输出文件，则可以重新分区或合并以写入单个文件。

df3.repartition(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

【讨论】：

以上是关于如何从 spark rdd map 和 reduce 操作写入单个文件的主要内容，如果未能解决你的问题，请参考以下文章