大数据讲课笔记5.2 MapReduce工作原理
Posted howard2005
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据讲课笔记5.2 MapReduce工作原理相关的知识,希望对你有一定的参考价值。
文章目录
零、学习目标
- 了解MapReduce工作过程
- 理解MapTask与ReduceTask工作原理
- 理解Shuffle工作原理
一、导入新课
- 通过上节课的学习,学生了解到MapReduce框架主要是由Map和Reduce两个阶段来实现计算的,那么这两个阶段的内部是如何协同工作的呢?本节课将针对MapReduce工作原理进行详细讲解。
二、新课讲解
(一)MapReduce工作过程
- 分片、格式化数据源
⟹
\\Longrightarrow
⟹执行MapTask
⟹
\\Longrightarrow
⟹执行Shuffle过程
⟹
\\Longrightarrow
⟹执行ReduceTask过程
⟹
\\Longrightarrow
⟹写入文件
(二)MapTask工作原理
- MapTask作为MapReduce工作流程前半部分,它主要经历5个阶段,分别是Read阶段、Map阶段、Collect阶段、Spill阶段和Combiner阶段。
(三)Reduce Task工作原理
- ReduceTask的工作过程主要经历了5个阶段,分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。
(四)Shuffle工作原理
- Shuffle是MapReduce的核心,它用来确保每个reducer的输入都是按键排序的。它的性能高低直接决定了整个MapReduce程序的性能高低,map和reduce阶段都涉及到了shuffle机制。
三、归纳总结
- 回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。
四、上机操作
- 形式:单独完成
- 题目:掌握MapReduce工作原理
- 要求:观看尚硅谷大数据视频关于掌握MapReduce工作原理这部分内容,然后写一篇学习报告。
以上是关于大数据讲课笔记5.2 MapReduce工作原理的主要内容,如果未能解决你的问题,请参考以下文章