刻意练习:Hadoop伪分布模式,基于YARN跑起来..
Posted 软件随想
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了刻意练习:Hadoop伪分布模式,基于YARN跑起来..相关的知识,希望对你有一定的参考价值。
实验环境
CentOS-7
JDK-1.8.0_144
Hadoop-2.8.1
YARN
YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。
YARN最初是为了修复MapReduce实现里的明显不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升。
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。
基于YARN的mapreduce机制被称为MapReduce2,相应的经典的mapreduce机制被称为MapReduce1。
YARN比MapReduce更具一般性,实际上MapReduce只是YARN应用的一种形式。
1.修改配置文件
在上篇《刻意练习:Hadoop伪分布模式,跑起来..》基础上,再修改两个配置文件:
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2.启动守护进程
$ sbin/start-dfs.sh
$ sbin/start-yarn.sh
启动成功后,执行jps命令,会看到相关JVM进程如下图。yarn主要是启动了ResourceManager和NodeManager两个进程。
在浏览器中访问http://192.168.0.104:8088,其中192.168.0.104是运行Hadoop伪分布模式的主机IP(请根据你的主机IP调整),浏览器可使用与其在同一局域网的Windows主机浏览器。会看到如下页面,这是ResourceManager的Web站点。
3.运行作业
运行示例程序:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input outputx 'dfs[a-z.]+'
运行结果同上篇。
4.终止守护进程
$ sbin/stop-dfs.sh
$ sbin/stop-yarn.sh
以上是关于刻意练习:Hadoop伪分布模式,基于YARN跑起来..的主要内容,如果未能解决你的问题,请参考以下文章