4MapReduce思想运行机制
Posted grand-jon
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4MapReduce思想运行机制相关的知识,希望对你有一定的参考价值。
MapReduce 离线计算框架
分而治之
- input > map > shuffle > reduce > output
- 分布式并行的计算框架
将计算过程分为两个阶段,Map和Reduce
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
Shuffle链接Map和Reduce两个阶段
- Map Task将数据写入到本地磁盘
- Reduce Task从每个Map Task上读取一份数据
仅适合离线批处理
- 具有很好的容错性和扩展性
- 适合简单的批处理任务
缺点明显
- 启动开销大、过多使用磁盘导致效率低下等
MapReduce on YARN
以上是关于4MapReduce思想运行机制的主要内容,如果未能解决你的问题,请参考以下文章