Spark DAG

Posted cpuCode

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark DAG相关的知识,希望对你有一定的参考价值。

DAG (Direct Acyclic Graph) : 有向无环图 : 顶点是一个个RDD,边是 RDD 之间通过 dependencies 构成的父子关系

DAG 类似图:

构建 DAG,到 DAG 转化的分布式任务过程:

  1. 回溯 DAG 并划分 Stages : 以 Actions 为起点,从后向前回溯 DAG,遇见 Shuffle 就划分 Stages
  2. 在 Stages 中创建分布式任务
  3. 分布式任务的分发
  4. 分布式任务的执行

Stages 划分:

MapReduce :

  • Map : map 接口来定义数据处理逻辑
  • Reduce :封装数据聚合逻辑
  • 数据交换都通过磁盘 , 磁盘 I/O 成为瓶颈

Stage 0 :

  • 在同一 Stage 内部,所有算子会合成一个函数, Stage 的输出结果由该函数一次性产生

以上是关于Spark DAG的主要内容,如果未能解决你的问题,请参考以下文章

论各类BI工具的“大数据”特性

BI大数据智能可视化大屏分析系统建设软件开发

技术分享|大数据初探之Spark内存管理与调优

[Spark快速大数据分析]Spark基础

大数据技术学习之Spark技术总结

大数据处理为何选择spark?