Hadoop MapReduce两种架构

Posted 2020-09-25 mzzcy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop MapReduce两种架构相关的知识，希望对你有一定的参考价值。

一、MRv1

　　Master - Slave 模式

　　存在JobTracker单点失败的问题，在YARN得到了解决。

主要包含4部分：JobTracker，TaskTracker，Task，Client

　　JobTracker：负责整个MR集群的资源监控和作业调度，集群的Master。它把任务进度和资源使用量告诉调度器TaskScheduler，由调度器来计划如何调度，调度器是个可挺拔模块。

　　TaskTracker：负责周期性的向JobTracker汇报每个节点的状况，并执行JobTracker发来的命令。TaskTracker使用slot来等量划分节点上的资源（CPU和内存），slot分为map slot 和 reduce slot两种，分别提供给map task 和 reduce task使用。

　　Task：分为MapTask 和 ReduceTask两种，由TaskTracker启动。通常一个Task只使用一个slot，但也可使用多个。

作业提交过程：

　　1、首先在客户端启动作业；

　　2、向JobTracker请求一个Job ID;

　　3、接着将运行作业所需要的资源文件复制到HDFS上，主要是作业的jar包、配置信息、输入划分等；这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件名为作业ID。Jar默认有10个副本，输入划分告诉JobTracker有多少个map任务等信息。

　　4、之后客户端会再向JobTracker正式提交作业，JobTracker会将作业放在一个作业队列中，等待调度。当调度到这个作业时，会先根据划分信息为每个split创建一个map任务，并交给TaskTracker来执行。

　　5、TaskTracker会每隔一段时间会给JobTracker汇报作业的进度状况。当最后一个任务完成时，便把该作业置为成功，并反馈给客户端。

二、MRv2-Yarn

　　通用的资源管理系统。

　　Master(RM) - Slave(NM) 模式

　　主要解决MRv1的扩展问题；是一般化的管理平台，MR，Spark等都可以在Yarn上运行；

　　把资源管理和应用程序管理剥离出来；划分为两个独立的守护进程，管理集群的资源使用和管理运行任务的生命周期。

　　主要由4个部分组成：

　　　　ResourceManager：控制整个集群并管理应用程序向基础计算资源的分配。将各个资源部分（cpu，内存，带宽等）分配到各个NodeManager；与AM一起分配资源；与NM一起启动并监视它们的应用程序；MRv1中的JobTracker；

　　　　ApplicationManager：管理一个在YARN中运行的应用程序的实例；负责协调来自RM的资源分配；与NM一起监视容器的执行和资源的使用。MRv1中的TaskTracker

　　　　NodeManager：管理YARN集群中的节点，监视一个容器的状态和节点资源使用。

　　　　Container：YARN中资源的抽象（cpu，内存，网络等），每个任务的执行都放在一个Container里。

　　作业运作流程：

三、任务调度算法

　　1、先入先出FIFO：Hadoop 中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。

　　1、公平调度：是指一个用户作业池中的Job公平地调度，尽可能保证每个Job所有均等的处理时间；可设置每个用户池间的权重（不会因为提交作业多而占更多的资源），动态自适应性。每个用户作业池中有多个作业同时运行。

　　2、容量池调度：是指限制每个用户的作业队列能使用的资源量，每上队列中使用FIFO调度，静态调度。每个用户作业队列中只有一个作业运行。

MapReduce中作业调度机制

以上是关于Hadoop MapReduce两种架构的主要内容，如果未能解决你的问题，请参考以下文章