Spark Client启动原理探索

Posted xingoo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Client启动原理探索相关的知识,希望对你有一定的参考价值。

经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。

在整体的流程图上是这样的:

大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver,然后与Master通信创建Excutor执行相应的任务。

自己整理了下流程图

以及的组件图:

可以看到大概是下面的步骤:

  1. 新建SparkContext
  2. 创建对应的scheduler和schedulerBackend
 val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)
_schedulerBackend = sched
_taskScheduler = ts
...
_taskScheduler.start()
  1. 启动scheduler的start方法,内部调用backend的start方法
  2. backend调用父类CoarseGrainedSchedulerBackend的start方法
override def start() {
  super.start()
  ...
  client = new StandaloneAppClient(sc.env.rpcEnv, masters, appDesc, this, conf)
  client.start()
}
  1. 创建对应的drvierEndpoint
  2. 在backend的start()方法里面创建StandaloneAppClient
  3. 执行StanaloneAppClient对象的start方法,内部创建ClientEndpoint

DriverEndpoint和ClientEndpoint都会跟Master进行通信,接下来的处理就是编译驱动程序的代码,发送给excutor进行相应的处理。

以上是关于Spark Client启动原理探索的主要内容,如果未能解决你的问题,请参考以下文章

[第二章] spark-yarn原理分析

Spark2.0源码学习-6.Client启动

Spark:如何从其他用户以“yarn_client”模式远程启动 Jupyter

spark启动原理总结

2. spark-2.4.6源码分析(基于yarn cluster模式)-YARN client启动,提交ApplicationMaster

spark使用idea以client模式提交应用到standalone集群