Spark DAG
Posted cpuCode
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark DAG相关的知识,希望对你有一定的参考价值。
DAG (Direct Acyclic Graph) : 有向无环图 : 顶点是一个个RDD,边是 RDD 之间通过 dependencies 构成的父子关系
DAG 类似图:
构建 DAG,到 DAG 转化的分布式任务过程:
- 回溯 DAG 并划分 Stages : 以 Actions 为起点,从后向前回溯 DAG,遇见 Shuffle 就划分 Stages
- 在 Stages 中创建分布式任务
- 分布式任务的分发
- 分布式任务的执行
Stages 划分:
MapReduce :
- Map : map 接口来定义数据处理逻辑
- Reduce :封装数据聚合逻辑
- 数据交换都通过磁盘 , 磁盘 I/O 成为瓶颈
Stage 0 :
- 在同一 Stage 内部,所有算子会合成一个函数, Stage 的输出结果由该函数一次性产生
以上是关于Spark DAG的主要内容,如果未能解决你的问题,请参考以下文章