大数据学习笔记—MapReduce

Posted 2021-04-19 Yihui公众平台

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据学习笔记—MapReduce相关的知识，希望对你有一定的参考价值。

MapReduce是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式程序。

*分布式程序核心思想

例如，做一个大数据量多文本档的每个单词的个数统计，分为多步骤。首先，将文档存到的block进行分别统计计算，再将计算结果进行分配汇总计算。

注：MapReduce变成模型只能包含一个map阶段和Reduce阶段，如果业务的逻辑非常复杂，那就只能用多个MapReuduce程序，串行运行

*提出问题

1、map task如何进行任务分配？

2、reduce task如何分配要处理的任务

3、maptask和reducetask之间如何衔接？

4、如果maptask运行失败，如何处理？

5、maptask如果都要自己负责输出分区，很麻烦

*提出解决

引入一个主管 MapReduce Application Master，负责调度整个流转过程。

*wordcount实现逻辑及代码实现

用户编写的程序分为三个部分：Mapper，Reducer，Driver（提交运行mr程序的客户端），用户自定义的 Mapper，Reducer都需要继承各自的父类。

1、Mapper

KEYIN：
默认情况下，是mr框架独到的一行文本的偏移量，Long类型。
但是文件传输需要序列化传输，在hadoop中有更精简的序列化接口，所以不直接使用Long，而是用org.apache.hadoop.io.LongWritable
VALUEIN：默认情况下，是mr框架所读到的一行文本的内容，String类型。序列化原因同上，因此使用org.apache.hadoop.io.Text
KEYOUT：用户自定义逻辑处理完成之后输出数据中的key。此题中为单词，String类型，同上原因用Text。
VALUEOUT：用户自定义逻辑处理完成之后输出数据中的value。此题中为数量，Integer类型，同上原因用IntWritable。