yarn三种调度器(资源调度策略或机制)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了yarn三种调度器(资源调度策略或机制)相关的知识,希望对你有一定的参考价值。

参考技术A

在理想状态下,我们对yarn的资源请求,应该是立即得到相应,但是实际情况往往资源是有限的,如果集群很繁忙的话,一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择

FIFO Scheduler 把应用按照提交的顺序拍成一个队列,上图是一个先进先出的队列,但是他并不适合共享集群,上图中job1在0点提交任务,资源使用率为100%,那么job2任务在1点提交的任务,只能等job1在5点钟执行完任务后释放资源,job2才开始执行任务,所以小任务会被大任务阻塞

而对于Capacity Scheduler,提前预留一个专门的通道给小任务执行,但是这样会预先占用一些资源,大任务只能利用80%的资源,就导致大任务的运行时间要大于FIFO的大任务的运行时间;如上图,而且小任务前后会造成资源浪费

在Fair Scheduler调度器中,我们不需要预留资源,Fair调度器会动态运行所有job的资源,如上图,一开始0点的时候,job1占用所有集群的资源,当job2提交的时候,Fair调度器会分配一半资源给job2,让job1和job2并行的运行任务

当job2在1点钟提交任务的时候,获取资源会有 一定的延时 ,因为需要job1关闭掉一些container,释放一些资源;小任务完成后,释放自己的资源,然后大任务又获取所有集群的资源
最终Fair调度器提高了资源利用率,又保证了小任务的及时完成

在企业中并不是只有一个人来执行MapReduce程序单独使用Yarn的资源,实际开发中,会有很多人一起使用Yarn这个资源,如果每个人都提交了job,这个时候Yarn就需要进行调度去分配资源给job,
下面三种调度机制,默认的是FIFO机制,这种机制是先进先出队列机制,在企业中基本不会使用,第二种机制Capacity机制是使用最多的,它是开辟出两个队列分给不同的组来执行job,但相同的组还是要按照先进先出的队列机制,第三种机制也常有使用。

Yarn调度队列

点击右侧关注,大数据开发领域最强公众号!

点击右侧关注,暴走大数据!



1 概述

在Yarn中,负责给应用分配资源的是Scheduler,并提供了多种调度器和可配置的策略供选择。
在Yarn中有是三种调度器可以选择: FIFO Scheduler,Capacity Scheduler,Fair Scheduler。
FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。
FIFO Scheduler是最简单也是最容易理解的调度器,不需要任何配置,但其不适用于共享集群。 大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。 在共享集群中,更适合采用Capacity Scheduler或Fair Scheduler,这两种调度器都允许大任务和小任务在提交的同时获得一定的资源。
下面Yarn调度器对比图展示了这几个调度器的区别,从图中可以看出,在FIFO调度器中,小任务会被大任务阻塞。
而对于Capacity调度器,有一个专门的队列用来运行小任务,但是为小任务专门设置一个队列会占用一定的集群资源,这就导致大任务的执行时间会落后于使用FIFO调度器时的时间。
在Fair调度器中,我们不需要预先占用一定的系统资源,Fair调度器会为所有运行的job动态的调整系统资源。 如下图所示,当第一个大job提交时,只有这一个job在运行,此时它获得了所有集群资源; 当第二个小任务提交后,Fair调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。
需要注意的是,在下图Fair调度器中,从第二个任务提交到获得资源会有一定的延迟,因为它需要等待第一个任务释放占用的Container。 小任务执行完成以后也会释放自己占用的资源,大任务又获得了全部的系统资源。 最终的效果就是Fair调度器既得到了高资源的利用率又能保证小任务的及时执行。

2 Capacity Scheduler 的配置

2.1 介绍

Capacity 调度器允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。 通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。 除此之外,队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。

通过上面那幅图,我们已经知道一个job可能使用不了整个队列的资源。 然而如果这个队列中运行多个job,如果这个队列的资源够用,那么就分配给这些job,如果这个队列的资源不够用了呢? 其实Capacity调度器仍可能分配额外的资源给这个队列,这就是“弹性队列”(queue elasticity)的概念。

在正常的操作中,Capacity调度器不会强制释放Container,当一个队列资源不够用时,这个队列只能获得其它队列释放后的Container资源。 当然,我们可以为队列设置一个最大资源使用量,以免这个队列过多的占用空闲资源,导致其它队列无法使用这些空闲资源,这就是”弹性队列”需要权衡的地方。

2.2 CS配置

该调度器预定义了一个root队列,所有队里都是该队列的子队列。
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>a,b,c</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.a.queues</name>
<value>a1,a2</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.b.queues</name>
<value>b1,b2,b3</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>
在配置root下面的子队列时使用逗号隔开,同时在定义层级队列时使用叫做queue path来表明,如yarn.scheduler.capacity.root.a.queues 各个子队列都可以使用百分比来表示占用父队列资源的比例,如未配置,则表示可以占用到父队列资源的全部资源。 同时还可以配置一个用户可以分配的最大资源数、可以同时运行多少个应用等。
调度器中的配置修改后可以使用admin进行动态刷新。

3 Fair Scheduler

Fair调度器的设计目标是为所有的应用分配公平的资源(对公平的定义可以通过参数来设置),用户在各自队列运行中逐渐资源变得平分。

3.1 队列配置

Fair调度器的配置文件位于类路径下的fair-scheduler.xml文件中,这个路径可以通过yarn.scheduler.fair.allocation.file属性进行修改。 若没有这个配置文件,Fair调度器采用的分配策略,调度器会在用户提交第一个应用时为其自动创建一个队列,队列的名字就是用户名,所有的应用都会被分配到相应的用户队列中。
我们可以在配置文件中配置每一个队列,并且可以像Capacity 调度器一样分层次配置队列。 比如,参考capacity-scheduler.xml来配置fair-scheduler:

Yarn调度队列
队列的层次是通过嵌套<queue>元素实现的。 所有的队列都是root队列的孩子,即使我们没有配到<root>元素里。 在这个配置中,我们把dev队列有分成了eng和science两个队列。

Fair调度器中的队列有一个权重属性(这个权重就是对公平的定义),并把这个属性作为公平调度的依据。 在这个例子中,当调度器分配集群40:60资源给prod和dev时便视作公平,eng和science队列没有定义权重,则会被平均分配。 这里的权重并不是百分比,我们把上面的40和60分别替换成2和3,效果也是一样的。 注意,对于在没有配置文件时按用户自动创建的队列,它们仍有权重并且权重值为1。

每个队列内部仍可以有不同的调度策略。 队列的默认调度策略可以通过顶级元素<defaultQueueSchedulingPolicy>进行配置,如果没有配置,默认采用公平调度。

尽管是Fair调度器,其仍支持在队列级别进行FIFO调度。 每个队列的调度策略可以被其内部的<schedulingPolicy> 元素覆盖,在上面这个例子中,prod队列就被指定采用FIFO进行调度,所以,对于提交到prod队列的任务就可以按照FIFO规则顺序的执行了。 需要注意,prod和dev之间的调度仍然是公平调度,同样eng和science也是公平调度。

同时Fair调度器采用了一套基于规则的系统来确定应用应该放到哪个队列。 在上面的例子中,<queuePlacementPolicy> 元素定义了一个规则列表,其中的每个规则会被逐个尝试直到匹配成功。 例如,上例第一个规则specified,则会把应用放到它指定的队列中,若这个应用没有指定队列名或队列名不存在,则说明不匹配这个规则,然后尝试下一个规则。 primaryGroup规则会尝试把应用放在以用户所在的Unix组名命名的队列中,如果没有这个队列,不创建队列转而尝试下一个规则。 当前面所有规则不满足时,则触发default规则,把应用放在dev.eng队列中。

上面规则可以归结成一句话,除非队列被准确的定义,否则会以用户名为队列名创建队列,还有一个简单的配置策略可以使得所有的应用放入同一个队列(default),这样就可以让所有应用之间平等共享集群而不是在用户之间。 直接设置yarn.scheduler.fair.user-as-default-queue=false,这样应用便会被放入default 队列,而不是各个用户名队列。 另外,我们还可以设置yarn.scheduler.fair.allow-undeclared-pools=false,这样用户就无法创建队列了。

尽管上面的配置中没有展示,每个队列仍可配置最大、最小资源占用数和最大可运行的应用的数量。 如下:
<?xml version="1.0"?>
<allocations>
<queue name="sample_queue">
<minResources>10000 mb,0vcores</minResources>
<maxResources>90000 mb,0vcores</maxResources>
<maxRunningApps>50</maxRunningApps>
<maxAMShare>0.1</maxAMShare>
<weight>2.0</weight>
<schedulingPolicy>fair</schedulingPolicy>
<queue name="sample_sub_queue">
<aclSubmitApps>charlie</aclSubmitApps>
<minResources>5000 mb,0vcores</minResources>
</queue>
<queue name="sample_reservable_queue">
<reservation></reservation>
</queue>
</queue>

<queueMaxAMShareDefault>0.5</queueMaxAMShareDefault>
<queueMaxResourcesDefault>40000 mb,0vcores</queueMaxResourcesDefault>

<!-- Queue 'secondary_group_queue' is a parent queue and may have
user queues under it -->

<queue name="secondary_group_queue" type="parent">
<weight>3.0</weight>
<maxChildResources>4096 mb,4vcores</maxChildResources>
</queue>

<user name="sample_user">
<maxRunningApps>30</maxRunningApps>
</user>
<userMaxAppsDefault>5</userMaxAppsDefault>

<queuePlacementPolicy>
<rule name="specified" />
<rule name="primaryGroup" create="false" />
<rule name="nestedUserQueue">
<rule name="secondaryGroupExistingQueue" create="false" />
</rule>
<rule name="default" queue="sample_queue"/>
</queuePlacementPolicy>
</allocations>

3.2 抢占

当一个job提交到一个繁忙集群中的空队列时,job并不会马上执行,而是阻塞直到正在运行的job释放系统资源。 为了使提交job的执行时间更具预测性(可以设置等待的超时时间),Fair调度器支持抢占。

抢占就是允许调度器杀掉占用超过其应占份额资源队列的containers,这些containers资源便可被分配到应该享有这些份额资源的队列中。 需要注意抢占会降低集群的执行效率,因为被终止的containers需要被重新执行。

可以通过设置一个全局的参数yarn.scheduler.fair.preemption=true来启用抢占功能。 此外,还有两个参数用来控制抢占的过期时间(这两个参数默认没有配置,需要至少配置一个来允许抢占Container):
-minimum share preemption timeout
-fair share preemption timeout
如果队列在minimum share preemption timeout指定的时间内未获得最小的资源保障,调度器就会抢占containers。 我们可以通过配置文件中的顶级元素<defaultMinSharePreemptionTimeout>为所有队列配置这个超时时间; 我们还可以在<queue>元素内配置<minSharePreemptionTimeout>元素来为某个队列指定超时时间。

与之类似,如果队列在fair share preemption timeout指定时间内未获得平等的资源的一半(这个比例可以配置),调度器则会进行抢占containers。 这个超时时间可以通过顶级元素 <defaultFairSharePreemptionTimeout> 和元素级元素 <fairSharePreemptionTimeout> 分别配置所有队列和某个队列的超时时间。 上面提到的比例可以通过 <defaultFairSharePreemptionThreshold> (配置所有队列)和 <fairSharePreemptionThreshold> (配置某个队列)进行配置,默认是0.5。

References

  • Hadoop: Capacity Scheduler

  • Container资源动态调整



欢迎点赞+收藏+转发朋友圈素质三连


文章不错?点个【在看】吧! 

以上是关于yarn三种调度器(资源调度策略或机制)的主要内容,如果未能解决你的问题,请参考以下文章

[Hadoop]-Yarn-调度器篇

Yarn调度队列

0012 - YARN三种资源调度器解析

Hadoop YARN 调度器(scheduler) —— 资源调度策略

YARN中的资源调度

Hadoop-yarn组件的三种调度器