浅谈Spark内部运行机制

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈Spark内部运行机制相关的知识,希望对你有一定的参考价值。

  1. Spark中最重要的机制有那些?

    1.RDD,2.Spark调度机制,3Shuffle过程

  2. 什么是RDD?

    可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD

    RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根据RDD编号与分区编号,可以唯一确定该分区对应的块编号,就能从存储介质中提取出分区对应的数据。在就是弹性,RDD在可以不改变内部存储数据记录的前提下,去调整并行计算单元的划分结构(这个可能就是Stage)

  3. 基本概念

    (1)应用程序:

    (2)驱动程序:

    (3)Master节点

    (4)Worker节点

    (5)任务执行器

    (6)作业

    (7)阶段

    (8)任务集与任务

  4. RDD为什么要划分Stage,怎么划分stage?

  5. Spark如何管理资源?

  6. Spark内部如何调度?

  7. Shuffle是怎么个过程?

本文出自 “简答生活” 博客,转载请与作者联系!

以上是关于浅谈Spark内部运行机制的主要内容,如果未能解决你的问题,请参考以下文章

[Spark内核] 第35课:打通 Spark 系统运行内幕机制循环流程

浅谈JavaScript运行机制

浅谈SQL Server任务调度

浅谈js运行机制(线程)

Java基础8-浅谈java程序的运行机制与JVM运行

浅谈Asp.net 运行机制