spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)

Posted 一只猪儿虫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)相关的知识,希望对你有一定的参考价值。

spark 创建分区

val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98))

val input = sc.parallelize(scores,3)   #这里创建了3个分区

查看分区数:

input.partitions.size

 

查看分区的内容和情况

input.glom().collect()

以上是关于spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)的主要内容,如果未能解决你的问题,请参考以下文章

查看spark RDD 各分区内容

如何在 Apache Spark 中跨列创建 RDD 分区?

Spark 分区:创建 RDD 分区但不创建 Hive 分区

在每个分区内具有共享指针的 Spark RDD(以及幻数 200??)

spark rdd分区数据支持哪些压缩格式

如何从 Apache Spark 中的单个文件记录创建多个 RDD 行