如何从 spark rdd map 和 reduce 操作写入单个文件

Posted

技术标签:

【中文标题】如何从 spark rdd map 和 reduce 操作写入单个文件【英文标题】:How to write to a singlefile from from spark rdd map and reduce operations 【发布时间】:2020-02-21 13:11:40 【问题描述】:

我在应用映射后尝试写入文本文件,减少操作。下面的代码创建了 8 个文件,但我只需要一个文件

df3.rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

请建议如何将内容写入单个文件

【问题讨论】:

保存前使用 .coalesce(1) 【参考方案1】:

最好的选择是“合并”。 coalesce 方法减少了 DataFrame 中的分区数。

这是您问题的代码。

df3.coalesce(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

因为它会通过避免数据移动来提供良好的性能。 请检查以下链接。

Spark - repartition() vs coalesce()

【讨论】:

【参考方案2】:

它正在创建多个文件,因为每个分区都是单独保存的。如果您需要文件夹中的单个输出文件,则可以重新分区或合并以写入单个文件。

df3.repartition(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")

【讨论】:

以上是关于如何从 spark rdd map 和 reduce 操作写入单个文件的主要内容,如果未能解决你的问题,请参考以下文章

Spark RDD与MapReduce

Spark几种调优方式

spark程序里如果给rdd.map传递一个会返回null的函数,最后rdd里面是会少一个元素还是有为null的元素啊

Scala和Spark,rdd从字典创建数据框

07 Spark RDD编程 综合实例 英文词频统计

Spark运行原理及RDD解密