Hadoop系列Hadoop三大核心之Yarn-资源调度初探

Posted 南山饱虎

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop系列Hadoop三大核心之Yarn-资源调度初探相关的知识,希望对你有一定的参考价值。

0. Yarn的来源

​ hadoop 1.x的时代,并没有Yarn,hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生,组件包含HDFS,MapReduce和Yarn。

​ 诞生原因:hadoop 1.x存在的最大问题就是资源管理问题。技术的发展不再满足于hadoop集群中只使用MapReduce一个计算框架,人们更希望有一套合理的管理机制,来控制集群的资源管理问题。就此Yarn诞生。

1. YARN概述

全称 Yet Another Resource Negotiator。是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce,spark 等运算程序可以运行在YARN上,相当于应用程序运行于操作系统之上

YARN 是 Hadoop2.x 版本中的一个新特性。它的出现是为了解决第一代 MapReduce 编程框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版本中重新设计的这个 YARN 集群,具有更好的扩展性,可用性,可靠性,向后兼容性,以及能支持除 MapReduce 以外的更多分布式计算程序

YARN的特点:

  1. YARN不清楚提交的程序的运行机制
  2. 只提供运算资源的调度,分配。用户申请就分配。
  3. 与运行的用户程序完全解耦。 YARN 上可以运行各种类型的分布式运算程序。比如 MapReduce、Storm 程序,Spark 程序等
  4. yarn 是一个通用的资源调度平台,企业中存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享

Yarn最大的特点是执行调度与Hadoop上运行的任务类型无关

2. YARN的重要组成部分

有两类长期运行的守护进程提供核心服务

  • ResourceManager(主节点) :全局资源管理器
  • NodeManager(从节点):节点资源管理器

主从结构如图

2.1 ResourceManager

整个系统有且只有一个 RM ,来控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager与ApplicationMaster一起分配资源,与NodeManager一起启动和监视它们的基础应用程序
RM里面还有两个重要组成部分:

  1. 应用程序管理器 Application Manager
  2. 资源调度器 Resource Scheduler

ResourceManager名字就是这两个词合并而来

(1)Application Manager 应用程序管理器

应用程序管理器就是负责管理 Client 用户提交的应用的管理器

主要功能:

  1. 负责接收client端传输的job请求,为应用(MapReduce 程序)分配一个Container(资源池)来运行一个Application Master

  2. 负责监控Appication Master

  3. 并且在遇到失败的时候重启Application Master

(2)Scheduler 资源调度器

Resource Scheduler即资源调度器,是让每一个节点都充分利用起来,合理分配和调度资源的一种管理器。

值得注意的是:调度器真的只是一个调度器,不参与任何具体的和应用程序相关的工作。

2.2 NodeManager

NodeManager是YARN集群当中真正资源的提供者,提供执行应用程序的容器, 监控应用程序的资源使用情况(CPU,内存,硬盘,网络),并通过心跳向 ResourceManager 进行汇报,以更新自己的健康状态。同时其也会监督 Container 的生命周期,监控每个 Container 的资源使用情况。
主要功能如下:

  1. 管理单个节点上的资源
  2. 处理来自ResourceManager的命令
  3. 处理来自ApplicationMaster的命令

2.3 逻辑上的组件Application Master

ApplicationMaster 就是一个java程序,进程名:MRAppMaster

作用:负责监控Map、Reduce任务。用户提交的每一个程序都会产生一个ApplicationMaster,这个AM就是负责整个任务的一个管理者,由这个 AM去向ResourceManager 申请容器资源,获得资源后会将要运行的程序发送到容器上启动,然后进行分布式计算。

主要功能:

  1. 与调度器(Scheduler)协商,获取执行资源
  2. 与NodeManager通信,启动任务和停止任务
  3. 监控所有旗下Job的执行状态,重启失败任务

3. Container 资源池

Yarn中的资源抽象,封装了多维度资源: 内存,cpu,磁盘等。Container就是Scheduler进行资源分配的一个单位,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。

  • 容器由 NodeManager 启动和管理,并被它所监控。
  • 容器被 ResourceManager 进行调度。

4. 小结

Yarn是Hadoop2.x之后引入的新组件。Yarn的架构采用了主从结构,一主多从(ResourceManager & NodeManager)。Yarn在Hadoop中的功能作用有两个,第一是负责Hadoop集群中的资源管理(resource management),第二是负责对任务进行调度和监控(scheduling/monitoring)。

以上是关于Hadoop系列Hadoop三大核心之Yarn-资源调度初探的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop系列Hadoop三大核心之HDFS基础

Hadoop系列Hadoop三大核心之MapReduce-程序编写

2021年大数据Hadoop(二十六):Yarn三大组件介绍

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

hadoop学习系列(1.大数据典型特性与分布式开发难点)

hadoop三大核心组件介绍