使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?

Posted

技术标签:

【中文标题】使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?【英文标题】:how to get an index of each partition when using RDD.mapPartitionsWithIndex? 【发布时间】:2021-08-05 12:52:34 【问题描述】:

我是 spark 和 scala 的新手。 Spark 中是否有办法从中获取分区 ID/No RDD.mapPartitionsWithIndex 定义如下:

def randomint(index: Int, iter: Iterator[T]) : Iterator[(Int, T)]=
...

self.mapPartitionsWithIndex(randomint).partitionBy(new randParti(nump)).values

【问题讨论】:

【参考方案1】:

您的命名可能令人困惑,但 randomint 函数中的 index 变量确实包含您要查找的内容:分区号。

【讨论】:

以上是关于使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?的主要内容,如果未能解决你的问题,请参考以下文章

在使用加载数据流步骤的猪中,使用(使用 PigStorage)和不使用它有啥区别?

今目标使用教程 今目标任务使用篇

Qt静态编译时使用OpenSSL有三种方式(不使用,动态使用,静态使用,默认是动态使用)

MySQL db 在按日期排序时使用“使用位置;使用临时;使用文件排序”

使用“使用严格”作为“使用强”的备份

Kettle java脚本组件的使用说明(简单使用升级使用)