RDD算子RDD依赖关系

Posted dummyly

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RDD算子RDD依赖关系相关的知识,希望对你有一定的参考价值。

RDD:弹性分布式数据集, 是分布式内存的一个抽象概念

RDD:1.一个分区的集合,

    2.是计算每个分区的函数 ,

      3.RDD之间有依赖关系

      4.一个对于key-value的RDD的Partitioner

           5.一个存储存取每个Partition的优先位置的列表

RDD算子:

Transformations:不会立即执行,只是记录这些操作

Actions:计算只有在action被提交的时候才被触发。

RDD依赖关系:

窄依赖指的是每一个父RDDPartition最多被子RDD的一个Partition使用

 

宽依赖指的是多个子RDDPartition会依赖同一个父RDDPartition

 

以上是关于RDD算子RDD依赖关系的主要内容,如果未能解决你的问题,请参考以下文章

RDD的三个机制

Spark宽依赖窄依赖

Spark-RDD

RDD的依赖关系

Spark DAG 依赖关系 Stage

RDD的分区依赖关系机制