数据热点Hadoop YARN新特性—label based scheduling
Posted 小象
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据热点Hadoop YARN新特性—label based scheduling相关的知识,希望对你有一定的参考价值。
首先,要选择apache hadoop 2.6或hdp2.2(可使用ambari部署)发行版。
步骤1:添加系统级别的label(相当于所有label的全集),注意,各个节点上的label必须都在系统级别的label中。
yarn rmadmin -addToClusterNodeLabels normal,highmem
yarn rmadmin -replaceLabelsOnNode "nodeId,label1,label2,…,labeln"
注意,nodeId是nodemanager的唯一标示,注意,一个节点上可以有多个nodemanager,每个nodemanager的nodeid可以在ResourceManager界面上看到,通常有host和PRC port拼接而成,默认情况下,各个nodemanager的RPC port是随机选取的,你可以将所有的nodemanager配置成一样的,便于管理:
<name>yarn.nodemanager.address</name>
<value>0.0.0.0:45454</value>
步骤3:配置label重启恢复。这样,label信息会保存到hdfs上(默认是保存在内存中的),之后yarn重新启动,可以自动恢复所有label信息:
<name>yarn.node-labels.manager-class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.nodelabels.RMNodeLabelsManager</value>
步骤4:修改capacity scheduler相关配置,设置每个队列对应的label,以及每中label的资源上下限。具体配置,可参考相关资源。
基于标签的调度策略是hadoop yarn新引入的feature,它能让YARN更好地运行在异构集群中,进而更好地管理和调度混合类型的应用程序。
以上是关于数据热点Hadoop YARN新特性—label based scheduling的主要内容,如果未能解决你的问题,请参考以下文章
3.1 Hadoop架构
58同城Hadoop2.6升级3.2实践
Yarn | 教你如何使用Capacity Scheduler node-labels特性
hadoop学习系列(1.大数据典型特性与分布式开发难点)
大数据Hadoop|MapRedece|Yarn
Hadoop之详解HDFS架构