Spark源码分析之-scheduler模块

Posted codingcat

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark源码分析之-scheduler模块相关的知识,希望对你有一定的参考价值。

 

RDD的依赖关系和Stage的分类

在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,而这个状态有可能是从前一状态转换而来的,因此换句话说这一个RDD有可能与之前的RDD(s)有依赖关系。根据依赖关系的不同,可以将RDD分成两种不同的类型:Narrow DependencyWide Dependency

  • Narrow Dependency指的是 child RDD只依赖于parent RDD(s)固定数量的partition。
  • Wide Dependency指的是child RDD的每一个partition都依赖于parent RDD(s)所有partition。

 

http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-scheduler%E6%A8%A1%E5%9D%97/

以上是关于Spark源码分析之-scheduler模块的主要内容,如果未能解决你的问题,请参考以下文章

spark 源码分析之三 -- LiveListenerBus介绍

Spark(五十二):Spark Scheduler模块之DAGScheduler流程

小记--------spark ——AGScheduler源码分析

spark 源码分析之十五 -- Spark内存管理剖析

TaskScheduler的启动

Spark源码分析之六:Task调度