Spark- Spark基本工作原理

Posted RZ_Lee

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark- Spark基本工作原理相关的知识,希望对你有一定的参考价值。

Spark特点:

1.分布式

  spark读取数据时是把数据分布式存储到各个节点内存中

2.主要基于内存(少数情况基于磁盘,如shuffle阶段)

  所有计算操作,都是针对多个节点上内存的数据,进行并行操作的

3.迭代式计算

对分布式节点内存中的数据进行处理,处理后的数据可能会移动到其他节点的内存中,当需要用到某些数据时,从这些节点的内存中就能找到,迭代出来使用

Spark与MapReduce的区别

Spark与MapReduce最大的不同在于,迭代式计算模型:

MapReduce分为两个阶段,map和reduce,两个阶段完成就结束了,所以我们在一个job里能做的处理有限,只能在map和reduce里处理

Spark计算模型可以分为n个阶段,因为他是内存迭代式的,我们在处理完一个阶段以后,可以继续往下处理很多个阶段,而不只是两个阶段。所以,Spark相较于MapReduce来说,计算模型可以提供更强大的功能。 

 

以上是关于Spark- Spark基本工作原理的主要内容,如果未能解决你的问题,请参考以下文章

Spark 基本架构及运行原理

Spark的工作原理

Spark架构原理和生态系统

Spark 工作原理及核心RDD 详解

Spark 工作原理及核心RDD 详解

HA下Spark集群工作原理(DT大数据梦工厂)