Spark- Spark基本工作原理

Posted 2020-10-11 RZ_Lee

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark- Spark基本工作原理相关的知识，希望对你有一定的参考价值。

Spark特点：

1.分布式

　　spark读取数据时是把数据分布式存储到各个节点内存中

2.主要基于内存（少数情况基于磁盘，如shuffle阶段）

　　所有计算操作，都是针对多个节点上内存的数据，进行并行操作的

3.迭代式计算

对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用

Spark与MapReduce最大的不同在于，迭代式计算模型：

MapReduce分为两个阶段，map和reduce，两个阶段完成就结束了，所以我们在一个job里能做的处理有限，只能在map和reduce里处理

Spark计算模型可以分为n个阶段，因为他是内存迭代式的，我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。所以，Spark相较于MapReduce来说，计算模型可以提供更强大的功能。

以上是关于Spark- Spark基本工作原理的主要内容，如果未能解决你的问题，请参考以下文章