查看spark RDD 各分区内容

Posted harvey888

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了查看spark RDD 各分区内容相关的知识,希望对你有一定的参考价值。

mapPartitionsWithIndex
def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

函数作用同mapPartitions,不过提供了分区的索引(代码中partid)。

val rdd = sc.parallelize(1 to 8,3)
rdd.mapPartitionsWithIndex{
(partid,iter)=>{
var part_map = scala.collection.mutable.Map[String,List[Int]]()
var part_name = "part_" + partid
part_map(part_name) = List[Int]()
while(iter.hasNext){
part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素
}
part_map.iterator
}
}.collect

 

OUTPUT  

res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))

 

转自:https://blog.csdn.net/jasonwang_/article/details/80369222















以上是关于查看spark RDD 各分区内容的主要内容,如果未能解决你的问题,请参考以下文章

如何查看spark中rdd的内容

spark rdd分区数据支持哪些压缩格式

Spark——窄依赖和宽依赖

Spark RDD - 分区总是在RAM中吗?

spark自定义分区器

Spark基础学习笔记18:掌握RDD分区