浅谈Spark内部运行机制
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈Spark内部运行机制相关的知识,希望对你有一定的参考价值。
Spark中最重要的机制有那些?
1.RDD,2.Spark调度机制,3Shuffle过程
什么是RDD?
可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD
RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根据RDD编号与分区编号,可以唯一确定该分区对应的块编号,就能从存储介质中提取出分区对应的数据。在就是弹性,RDD在可以不改变内部存储数据记录的前提下,去调整并行计算单元的划分结构(这个可能就是Stage)
基本概念
(1)应用程序:
(2)驱动程序:
(3)Master节点
(4)Worker节点
(5)任务执行器
(6)作业
(7)阶段
(8)任务集与任务
RDD为什么要划分Stage,怎么划分stage?
Spark如何管理资源?
Spark内部如何调度?
Shuffle是怎么个过程?
本文出自 “简答生活” 博客,转载请与作者联系!
以上是关于浅谈Spark内部运行机制的主要内容,如果未能解决你的问题,请参考以下文章