大数据讲课笔记5.2 MapReduce工作原理

Posted howard2005

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据讲课笔记5.2 MapReduce工作原理相关的知识,希望对你有一定的参考价值。

文章目录

零、学习目标

  1. 了解MapReduce工作过程
  2. 理解MapTask与ReduceTask工作原理
  3. 理解Shuffle工作原理

一、导入新课

  • 通过上节课的学习,学生了解到MapReduce框架主要是由Map和Reduce两个阶段来实现计算的,那么这两个阶段的内部是如何协同工作的呢?本节课将针对MapReduce工作原理进行详细讲解。

二、新课讲解

(一)MapReduce工作过程

  • 分片、格式化数据源 ⟹ \\Longrightarrow 执行MapTask ⟹ \\Longrightarrow 执行Shuffle过程 ⟹ \\Longrightarrow 执行ReduceTask过程 ⟹ \\Longrightarrow 写入文件

(二)MapTask工作原理

  • MapTask作为MapReduce工作流程前半部分,它主要经历5个阶段,分别是Read阶段、Map阶段、Collect阶段、Spill阶段和Combiner阶段。

(三)Reduce Task工作原理

  • ReduceTask的工作过程主要经历了5个阶段,分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。

(四)Shuffle工作原理

  • Shuffle是MapReduce的核心,它用来确保每个reducer的输入都是按键排序的。它的性能高低直接决定了整个MapReduce程序的性能高低,map和reduce阶段都涉及到了shuffle机制。

三、归纳总结

  • 回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。

四、上机操作

  • 形式:单独完成
  • 题目:掌握MapReduce工作原理
  • 要求:观看尚硅谷大数据视频关于掌握MapReduce工作原理这部分内容,然后写一篇学习报告。

以上是关于大数据讲课笔记5.2 MapReduce工作原理的主要内容,如果未能解决你的问题,请参考以下文章

大数据讲课笔记5.4 MapReduce运行模式

大数据讲课笔记5.3 MapReduce编程组件

大数据讲课笔记5.5 MapReduce经典案例——倒排索引

大数据讲课笔记2.3 初探Hadoop世界

大数据讲课笔记4.2 HDFS架构和原理

大数据讲课笔记5.6 MR案例—数据去重