刻意练习:Hadoop伪分布模式,基于YARN跑起来..

Posted 软件随想

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了刻意练习:Hadoop伪分布模式,基于YARN跑起来..相关的知识,希望对你有一定的参考价值。

实验环境

  • CentOS-7

  • JDK-1.8.0_144

  • Hadoop-2.8.1

YARN

YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。

YARN最初是为了修复MapReduce实现里的明显不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升。

YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。

基于YARN的mapreduce机制被称为MapReduce2,相应的经典的mapreduce机制被称为MapReduce1。 

YARN比MapReduce更具一般性,实际上MapReduce只是YARN应用的一种形式。

1.修改配置文件

在上篇刻意练习:Hadoop伪分布模式,跑起来..》基础上,再修改两个配置文件:

etc/hadoop/mapred-site.xml:

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>


etc/hadoop/yarn-site.xml:

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>


2.启动守护进程

$ sbin/start-dfs.sh

$ sbin/start-yarn.sh

启动成功后,执行jps命令,会看到相关JVM进程如下图。yarn主要是启动了ResourceManager和NodeManager两个进程。

刻意练习:Hadoop伪分布模式,基于YARN跑起来..

在浏览器中访问http://192.168.0.104:8088,其中192.168.0.104是运行Hadoop伪分布模式的主机IP(请根据你的主机IP调整),浏览器可使用与其在同一局域网的Windows主机浏览器。会看到如下页面,这是ResourceManager的Web站点。

3.运行作业

运行示例程序:

 $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input outputx 'dfs[a-z.]+'

运行结果同上篇。

4.终止守护进程

$ sbin/stop-dfs.sh

$ sbin/stop-yarn.sh




以上是关于刻意练习:Hadoop伪分布模式,基于YARN跑起来..的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop-伪分布式运行模式

hadoop伪分布式

hadoop的安装和配置——第二章:伪分布模式

云计算平台Hadoop伪分布式模式环境搭建

Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

判断hadoop伪分布式安装模式是否成功启动