使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?
Posted
技术标签:
【中文标题】使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?【英文标题】:how to get an index of each partition when using RDD.mapPartitionsWithIndex? 【发布时间】:2021-08-05 12:52:34 【问题描述】:我是 spark 和 scala 的新手。 Spark 中是否有办法从中获取分区 ID/No
RDD.mapPartitionsWithIndex
定义如下:
def randomint(index: Int, iter: Iterator[T]) : Iterator[(Int, T)]=
...
self.mapPartitionsWithIndex(randomint).partitionBy(new randParti(nump)).values
【问题讨论】:
【参考方案1】:您的命名可能令人困惑,但 randomint
函数中的 index
变量确实包含您要查找的内容:分区号。
【讨论】:
以上是关于使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引?的主要内容,如果未能解决你的问题,请参考以下文章
在使用加载数据流步骤的猪中,使用(使用 PigStorage)和不使用它有啥区别?
Qt静态编译时使用OpenSSL有三种方式(不使用,动态使用,静态使用,默认是动态使用)