好程序员大数据学习路线分享MAPREDUCE

Posted 2022-08-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了好程序员大数据学习路线分享MAPREDUCE相关的知识，希望对你有一定的参考价值。

好程序员大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

1）整个运算需要分阶段
- 阶段一：并行局部运算
- 阶段二：汇总处理，不同的阶段需要开发不同的程序
2）阶段之间的调用
3）业务程序（task程序）如何并发到集群并启动程序
4）如何监控task程序的运行状态，如何处理异常
::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::
MR 的结构
一个完整的MapReduce运行时有三类实例进程：
1）MRAppMaster ：负责整个程序的过程调度和状态调度
2）mapTask：负责map阶段的整个数据处理流程
3）ReduceTask：负责reduce阶段的整个数据处理流程
MR设计框架
::MAPERDUCE详细框架::
- 1）资源如何分发？ ::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。
- 2）虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器？::ResourceManager:: 作为master
- 3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况（cpu，磁盘，网络，硬盘）并且向调度器ResourceManager汇报
  
  ::作业提交流程::
1）客户端提交作业给resourcemanager
2）resourcemanager返回jobid，存储路径path信息
3）客户端将job.jar 、job.split（确定需要运行多少task）、job.splitinfo等资源上传到HDFS的存储路径
4）上传到hdfs完成后，客户端通知resourcemanager启动job
5）resourcemanager将job加入到job等待队列，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master
6)Appmaster向resourcemanager请求maptask的资
7）resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split
8）maptask执行完成，通知Appmaster，释放maptask资源。

分片机制

::如何确定需要运行多少task（并行度）::

技术图片

决定需要多大的并行度
- map阶段并行度：客户端首先查看一下待处理数据目录下的数据量
  /data/a.txt 1G
  /data/b.txt 800M
- 循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器
- 返回一任务规划描述文件：job.split：
  - [ ] split0: /data/a.txt 0-128M
  - [ ] split1: /data/a.txtx 128-256M
    …..
  - [ ] split8: /data/b.txt 0-128M
    写入HDFS中
- 分片和分块不同：
  - 分片是逻辑概念，给task一个数据处理的范围
  - 存在冗余（10%），偏移量和数据大小
特性：移动计算（jar包中封装的计算）而不是移动数据

编写MR程序的步骤：
1、用户编写程序分为三个部分：Mapper、Reducer、Driver
2、Mapper的输入数据是kv对的形式（数据类型可自定义）
3、Mapper的输出数据是kv对的形式（数据类型可自定义）
4、Mapper中的业务逻辑写在map（）方法中
5、Map（）方法对每一对kv值调用一次
6、Reducer的输入数据是kv对的形式（数据类型可自定义）
7、Reducer的输出数据是kv对的形式（数据类型可自定义）
8、Reducer中的业务逻辑写在reduce（）方法中
9、ReduceTask进程对每一组相同的key的<k,v>调用一次reduce（）方法
10、用户自定义的Mapper、Reducer类都要继承各自的父类
11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

案例：wordcount
需求：有一批数据文件（TB或者PB级别的数据），如何统计这些文件中的单词出现次数

以上是关于好程序员大数据学习路线分享MAPREDUCE的主要内容，如果未能解决你的问题，请参考以下文章

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线分享scala单列和伴生对象

好程序员大数据学习路线分享高阶函数

好程序员大数据学习路线分享Scala系列之泛型

好程序员大数据学习路线分享hive的运行方式

好程序员大数据学习路线分享Scala系列之集合操作函数