浅谈Spark内部运行机制

Posted 2020-09-12

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了浅谈Spark内部运行机制相关的知识，希望对你有一定的参考价值。

Spark中最重要的机制有那些？
1.RDD，2.Spark调度机制，3Shuffle过程
什么是RDD?
可以这么说，你懂了RDD，基本上就可以对Hadoop和Spark的一半给吃透了，那么到底是RDD
RDD(弹性分布式数据集）首先体现数据集，RDD是对原始数据的封装，该种数据结构内部可以对数据进行逻辑分区，其次分布式体现是并行计算以及需要解决容错问题，也就是根据依赖，找到第一层RDD，最后根据RDD编号与分区编号，可以唯一确定该分区对应的块编号，就能从存储介质中提取出分区对应的数据。在就是弹性，RDD在可以不改变内部存储数据记录的前提下，去调整并行计算单元的划分结构（这个可能就是Stage）
基本概念
（1）应用程序：
（2）驱动程序：
（3）Master节点
（4）Worker节点
（5）任务执行器
（6）作业
（7）阶段
（8）任务集与任务
RDD为什么要划分Stage，怎么划分stage？
Spark如何管理资源？
Spark内部如何调度？
Shuffle是怎么个过程？

本文出自 “简答生活” 博客，转载请与作者联系！

以上是关于浅谈Spark内部运行机制的主要内容，如果未能解决你的问题，请参考以下文章