YARN介绍

Posted 小WEI笔记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了YARN介绍相关的知识,希望对你有一定的参考价值。

在之前的Hadoop安装的过程中,我已经对MapReduce的相关配置做了介绍。同时也配置了另一个东西——yarn。以至于线程中没有了jobtracker和taskTracker的相关线程。而Hadoop2.X的MapReduce就是建立在yarn的基础之上的。Hadoop2.X的MapReduce又被称为MRv2。

MRv2最基本的设计思想是将JobTracker的两个主要功能,即资源管理和作业调度/监控分成两个独立的进程。在该解决方案中包含两个组件:全局的ResourceManager(RM)和与每个应用相关的ApplicationMaster(AM)。

YARN架构分析

下面是一张官网上的yarn的架构图:

YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上,因此它们之间不会相互影响。

YARN组件介绍

ResourceManager(RM)是系统中将资源分配给各个应用的最终决策者。

ResourceManager有两个组件组成:

调度器(Scheduler):
Scheduler调度器根据容量,队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用。这里的调度器是一个“纯调度器”,因为它不再负责监控或者跟踪应用的执行状态等(和namenode不同),此外,他也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务。

应用管理器(ApplicationsManager,ASM):
ASM主要负责接收作业,协商获取第一个容器用于执行AM和提供重启失败AM Container的服务。

ApplicationMaster

AppMstr或AM主要负责同调度器协商以获取合适的容器,并跟踪这些容器的状态和监控其进度。它结合从ResourceManager 获得的资源和 NodeManager 协同工作来运行和监控任务。

NodeManager

NodeManager 是每一台机器框架的代理,是执行应用程序的容器,监控应用程序的资源使用情况 (CPU,内存,硬盘,网络 ) 并且向调度器汇报。

Container

Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。
需要注意的是,Container不同于MRv1中的slot,它是一个动态资源划分单位,是根据应用程序的需求动态生成的。目前YARN仅支持CPU和内存两种资源,且使用了轻量级资源隔离机制Cgroups进行资源隔离。

YARN工作流程

当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:

第一个阶段是启动ApplicationMaster;

第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。

1 用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

2 ResourceManager为该应用程序分配第一个Container(执行任务的时候才会创建),并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster。

3 ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。

4 ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。

5 一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。

6 NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。

7 各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。

在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

8 应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。

以上是关于YARN介绍的主要内容,如果未能解决你的问题,请参考以下文章

Node.js / npm / yarn / Vue / webpack 概念介绍

Node.js / npm / yarn / Vue / webpack 概念介绍

hadoop yarn

Hadoop新MapReduce框架Yarn详解

Hadoop-YARN介绍

windows安装yarn 详细教程