Spark调优数据本地化

Posted 2020-11-28 wyh-study

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark调优数据本地化相关的知识，希望对你有一定的参考价值。

　　Application任务执行流程: 在Spark Application提交后，Driver会根据action算子划分成一个个的job，然后对每一个job划分成一个个的stage，stage内部实际上是由一系列并行计算的task组成的，然后以TaskSet的形式提交给你TaskScheduler，TaskScheduler在进行分配之前都会计算出每一个task最优计算位置。Spark的task的分配算法优先将task发布到数据所在的节点上，从而达到数据最优计算位置。

一、数据本地化级别：

　　　　 PROCESS_LOCAL 进程本地化

技术图片