Spark 与 MapReduce的区别

Posted 见贤思小齐,知足常乐呵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 与 MapReduce的区别相关的知识,希望对你有一定的参考价值。

学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html

 

1.  Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理?

边 fetch 边处理。

  • MapReduce

     shuffle 阶段就是边 fetch 边使用 combine() 进行处理,只是 combine() 处理的是部分数据。MapReduce 为了让进入 reduce() 的 records 有序,必须等到全部数据都 shuffle-sort 后再开始 reduce()。

  • Spark

    因为 Spark 不要求 shuffle 后的数据全局有序,因此没必要等到全部数据 shuffle 完成后再处理。

    使用可以 aggregate 的数据结构,比如 HashMap。每 shuffle 得到(从缓冲的 FileSegment 中 deserialize 出来)一个 \<key, value\=""> record,直接将其放进 HashMap 里面。如果该 HashMap 已经存在相应的 Key,那么直接进行 aggregate 也就是 func(hashMap.get(Key), Value),比如上面 WordCount 例子中的 func 就是 hashMap.get(Key) + Value,并将 func 的结果重新 put(key) 到 HashMap 中去。

2. 

以上是关于Spark 与 MapReduce的区别的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop,MapReduce,YARN和Spark的区别与联系

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

Apache Spark 与 MapReduce

Spark2.0学习记录

Hadoop、Hive、Spark三者的区别和关系

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化