DT大数据梦工厂第三十五课 Spark系统运行循环流程

Posted sinat_25306771

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DT大数据梦工厂第三十五课 Spark系统运行循环流程相关的知识,希望对你有一定的参考价值。

本节课内容:

1.     TaskScheduler工作原理

2.     TaskScheduler源码

 

一、TaskScheduler工作原理

       总体调度图:


       通过前几节课的讲解,RDD和DAGScheduler以及Worker都已有深入的讲解,这节课我们主要讲解TaskScheduler的运行原理。

       回顾:

       DAGScheduler面向整个Job划分多个Stage,划分是从后往前的回溯过程;运行时从前往后运行的。每个Stage中有很多任务Task,Task是可以并行执行的。它们的执行逻辑完全相同的,只不过是处理的数据不同而已,DAGScheduler通过TaskSet的方式,把其构造的所有Task提交给底层调度器TaskScheduler。

TaskScheduler是一个trait,与具体的资源调度解耦合,这符合面向对象中依赖抽象不依赖具体的原则,带来底层资源调度器的可插拔性,导致Spark可以运行的众多的资源调度模式上,例如:StandAlone、Yarn、Mesos、Local、EC2或者其他自定义的资源调度器。

以上是关于DT大数据梦工厂第三十五课 Spark系统运行循环流程的主要内容,如果未能解决你的问题,请参考以下文章

Spark运行原理和RDD解析(DT大数据梦工厂)

Spark 1.6 RPC内幕解密:运行机制源码详解Netty与Akka等(DT大数据梦工厂)

Spark Runtime(DriverMassterWorkerExecutor)内幕解密(DT大数据梦工厂)

Spark on Yarn彻底解密(DT大数据梦工厂)

Spark Executor内幕彻底解密(DT大数据梦工厂)

彻底解密WordCount运行原理(DT大数据梦工厂)