Spark- Spark基本工作原理
Posted RZ_Lee
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark- Spark基本工作原理相关的知识,希望对你有一定的参考价值。
Spark特点:
1.分布式
spark读取数据时是把数据分布式存储到各个节点内存中
2.主要基于内存(少数情况基于磁盘,如shuffle阶段)
所有计算操作,都是针对多个节点上内存的数据,进行并行操作的
3.迭代式计算
对分布式节点内存中的数据进行处理,处理后的数据可能会移动到其他节点的内存中,当需要用到某些数据时,从这些节点的内存中就能找到,迭代出来使用
Spark与MapReduce的区别
Spark与MapReduce最大的不同在于,迭代式计算模型:
MapReduce分为两个阶段,map和reduce,两个阶段完成就结束了,所以我们在一个job里能做的处理有限,只能在map和reduce里处理
Spark计算模型可以分为n个阶段,因为他是内存迭代式的,我们在处理完一个阶段以后,可以继续往下处理很多个阶段,而不只是两个阶段。所以,Spark相较于MapReduce来说,计算模型可以提供更强大的功能。
以上是关于Spark- Spark基本工作原理的主要内容,如果未能解决你的问题,请参考以下文章