如何从 spark rdd map 和 reduce 操作写入单个文件
Posted
技术标签:
【中文标题】如何从 spark rdd map 和 reduce 操作写入单个文件【英文标题】:How to write to a singlefile from from spark rdd map and reduce operations 【发布时间】:2020-02-21 13:11:40 【问题描述】:我在应用映射后尝试写入文本文件,减少操作。下面的代码创建了 8 个文件,但我只需要一个文件
df3.rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")
请建议如何将内容写入单个文件
【问题讨论】:
保存前使用 .coalesce(1) 【参考方案1】:最好的选择是“合并”。 coalesce 方法减少了 DataFrame 中的分区数。
这是您问题的代码。
df3.coalesce(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")
因为它会通过避免数据移动来提供良好的性能。 请检查以下链接。
Spark - repartition() vs coalesce()
【讨论】:
【参考方案2】:它正在创建多个文件,因为每个分区都是单独保存的。如果您需要文件夹中的单个输出文件,则可以重新分区或合并以写入单个文件。
df3.repartition(1).rdd.map(_.toSeq.map(_+"").reduce(_+" "+_)).saveAsTextFile("/home/ram/Desktop/test4")
【讨论】:
以上是关于如何从 spark rdd map 和 reduce 操作写入单个文件的主要内容,如果未能解决你的问题,请参考以下文章