1.1伪分布式安装

Posted pugongying017

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1.1伪分布式安装相关的知识,希望对你有一定的参考价值。

以下的安装说明适用于Mac、Hadoop2.9.0

 

一、安装前提

  1. 支持的平台

    GNU/Linux可以作为开发、生产运行环境,在GNU/Linux部署的集群可以支持2000+个节点。

    也支持windows平台。

  2. 依赖的软件

    Java,Hadoop2.7以上版本要求Java版本7以上;

    安装了ssh,并且sshd是运行状态,hadoop脚本需要使用ssh远程管理Hadoop后台进程。

二、下载安装包

下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/

三、安装

1、准备

  • 解压缩hadoop-2.9.0.tar.gz

  • 配置Java环境变量

    修改etc/hadoop/hadoop-env.sh ,添加如下内容:

    # set to the root of your Java installation    
    export JAVA_HOME=/usr/java/latest
  • JAVA_HOME需要根据本机的实际路径进行配置,如:

    export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_101.jdk/Contents/Home
  • 执行如下命令,查看hadoop脚本的使用说明

    $ bin/hadoop 
    Usage: hadoop [--config confdir] [COMMAND | CLASSNAME] 
      CLASSNAME            run the class named CLASSNAME 
     or 
      where COMMAND is one of: 
      fs                   run a generic filesystem user client 
      version              print the version 
      jar <jar>            run a jar file 
                           note: please use "yarn jar" to launch 
                                 YARN applications, not this command. 
      checknative [-a|-h]  check native hadoop and compression libraries availability 
      distcp <srcurl> <desturl> copy file or directories recursively 
      archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive 
      classpath            prints the class path needed to get the 
                           Hadoop jar and the required libraries 
      credential           interact with credential providers 
      daemonlog            get/set the log level for each daemon 
      trace                view and modify Hadoop tracing settings 
     
    Most commands print help when invoked w/o parameters.

四、配置

hadoop支持三种运行模式:

本地(独立)模式:Local (Standalone) Mode

伪分布式模式:Pseudo-Distributed Mode

分布式模式:Fully-Distributed Mode

伪分布式模式配置

Hadoop支持单节点运行伪分布式模式集群,hadoop后台进程在各自单独的Java进程里运行。

1.配置HDFS

etc/hadoop/core-site.xml:

 

<configuration> 
    <property> 
        <name>fs.defaultFS</name> 
        <value>hdfs://localhost:9000</value> 
    </property> 
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration> 
    <property> 
        <name>dfs.replication</name> 
        <value>1</value> 
    </property> 
</configuration>
2.配置ssh无密码登录

上面提到,hadoop脚本需要使用ssh远程管理Hadoop后台进程。所以,即使是伪分布式模式,如果没有配置无密码登录,那么每次启动hadoop服务,都会要求输入用户密码。

执行下面的命令,如果提示输入密码,需要继续配置,否则已经配置了无密码登录。

$ ssh localhost 
 

执行下面的命令,配置ssh无密码登录:

  $ ssh-keygen -t rsa -P ‘‘ -f ~/.ssh/id_rsa 
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
  $ chmod 0600 ~/.ssh/authorized_keys

说明:authorized_keys文件的权限必须是0600。

3.启动HDFS并测试

3.1 格式化文件系统

 $ bin/hdfs namenode -format 

3.2 启动NameNode、DataNode

$ sbin/start-dfs.sh 

日志默认路径:$HADOOP_LOG_DIR,缺省路径:$HADOOP_HOME/logs。

3.3 通过web界面查看NameNode:

默认地址:http://localhost:50070/

3.4 创建执行MapReduce job需要的HDFS目录:

  $ bin/hdfs dfs -mkdir /user 
  $ bin/hdfs dfs -mkdir /user/<username>
 

3.5 复制文件到分布式文件系统: 

$ bin/hdfs dfs -put etc/hadoop input

3.6 运行样例:

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar grep input output ‘dfs[a-z.]+‘ 

3.7 查看样例运行结果:

复制到本地查看

  $ bin/hdfs dfs -get output output 
  $ cat output/*

或者直接在分布式文件系统中查看:

$ bin/hdfs dfs -cat output/* 

3.8 可以运行下面的命令关闭dfs:

$ sbin/stop-dfs.sh 
4.YARN单节点模式配置

4.1 配置etc/hadoop/mapred-site.xml:

<configuration> 
    <property> 
        <name>mapreduce.framework.name</name> 
        <value>yarn</value> 
    </property> 
</configuration>

etc/hadoop/yarn-site.xml:

<configuration> 
    <property> 
        <name>yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value> 
    </property> 
</configuration>

4.2 启动ResourceManager、NodeManager:

$ sbin/start-yarn.sh 

4.3 通过web界面查看ResourceManager:

默认地址:http://localhost:8088/

4.4 可以运行下面的命令关闭YARN后台进程:

$ sbin/stop-yarn.sh 

以上是关于1.1伪分布式安装的主要内容,如果未能解决你的问题,请参考以下文章

2.3 Hadoop安装与体验

Spark学习之路 Spark伪分布式安装

macbook 下hadoop伪分布式安装

Hadoop-3.3.5伪分布式安装

HBase基础和伪分布式安装配置

zookeeper伪分布环境搭建