hadoop集群安装

Posted 爱前端的后端Coder

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop集群安装相关的知识,希望对你有一定的参考价值。

环境:

centos6 32位 hadoop2.8.4  jdk1.8(此版本运行hadoop时会警告可无视)hadoop用户(非root普通用户)   主机ip:10.10.10.10  slave主机ip:20.20.20.20

请务牢记上述环境!!!  另外除非表明使用root用户外,皆用hadoop用户执行命令

hadoop2.x与1.x结构上发生了一些变化

搭建共6步

1.配置java环境

2.配置master主机与各slave主机的ssh通信

3.下载、解压hadoop压缩包,并配置hadoop环境变量

4.配置hadoop中7大配置文件

5.格式化 namenode 

6. 启动

 

3.下载、解压hadoop压缩包,并配置hadoop环境变量

 从hadoo官网下载压缩包 hadoop2.8.4.tar.gz 

①切换至root用户或使用sudo命令执行以下3条命令:

 

mkdir /usr/hadoop  新建hadoop上层目录
tar -zxvf hadoop2.8.4.tar.gz -C /usr/hadoop/  解压至新建目录
chown -R hadoop:hadoop /usr/hadoop  将/usr/hadoop用户权限转移给hadoop组的hadoop用户

 

②继续以root用户或使用sudo命令执行:

vi /etc/profile  配置hadoop环境变量

 

③在profile文件的末尾添加2行:

export HADOOP_HOME=/usr/hadoop/hadoop2.8.4
export PATH=$PATH:$HADOOP_HOME/bin

如果你第①步执行没有问题的话,此时在 /usr/hadoop/ 目录下存在一个 hadoop2.8.4 文件夹

 

 ④检查环境变量

source /etc/profile
reboot  重启(可选),博主搭建时环境变量始终未刷新,无奈重启...
echo $HADOOP_HOME  这句命令会在终端输出hadoop的解压目录 /usr/hadoop/hadoop2.8.4

 

 

4.配置hadoop中7大配置文件

 这一步参考了以下2个网址:

Hadoop2.8 安装心得

Hadoop 2.8集群安装及配置记录

 

① 修改 /usr/hadoop/hadoop2.8.4/etc/hadoop-env.sh 与 yarn-env.sh 2个文件中的JAVA路径

如果改行前面有注释#,去掉后修改保存

export JAVA_HOME=本机java安装(解压)目录

 

②修改 /usr/hadoop/hadoop2.8.4/etc/hadoop/slave 文件

20.20.20.20

一行一个slave主机ip,可以用主机名代替,但是前提是 /etc/hosts 文件中有相应的映射信息,这里是新版本hadoop,配置文件中没有master文件

 

③ /usr/hadoop/hadoop2.8.4/etc/hadoop/core-site.xml

<configuration>     
    <property>   
        <name>hadoop.tmp.dir</name>   
        <value>/usr/hadoop/hadoop2.8.4/tmp</value>  <!-- 需要自己在hadoop2.8.4目录中新建tmp文件夹 -->
        <final>true</final>
    </property>   
    <property>   
        <name>fs.default.name</name>   
        <value>hdfs://10.10.10.10:9000</value>      <!-- 这里填的是master主机的ip(或主机名) -->
            <final>true</final>   
    </property>   
    </configuration> 

 

④ /usr/hadoop/hadoop2.8.4/etc/hadoop/hdfs-site.xml

 <configuration>       
         <property>    
             <name>dfs.http.address</name>    
             <value>10.10.10.10:50070</value>    <!--依旧是master主机ip -->
        </property>    
        <property>   
            <name>dfs.replication</name>   
            <value>1</value>   <!-- slave主机数量,我这里只有1台,就填1 -->
        </property>    
        <property>    
             <name>dfs.namenode.secondary.http-address</name>    
             <value>10.10.10.10:50090</value>    
        </property>   
    </configuration>

 

⑤ /usr/hadoop/hadoop2.8.4/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>10.10.10.10:9001</value>
    </property>
    <property>
        <name>mapred.map.tasks</name>
        <value>20</value>
    </property>
    <property>
        <name>mapred.reduce.tasks</name>
        <value>4</value>
    </property>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>10.10.10.10:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>10.10.10.10:19888</value>
    </property>
</configuraion>

 

⑥ /usr/hadoop/hadoop2.8.4/etc/hadoop/yarn-site.xml

<property>    
  <name>yarn.resourcemanager.address</name>    
  <value>10.10.10.10:18040</value>    
</property>    
<property>    
  <name>yarn.resourcemanager.scheduler.address</name>    
  <value>10.10.10.10:18030</value>    
</property>    
<property>    
  <name>yarn.resourcemanager.webapp.address</name>    
  <value>10.10.10.10:18088</value>    <!-- 记住这个ip,用于浏览器访问:10.10.10.10:18080/cluster/ -->
</property>    
<property>    
  <name>yarn.resourcemanager.resource-tracker.address</name>    
  <value>10.10.10.10:18025</value>    
</property>    
<property>    
  <name>yarn.resourcemanager.admin.address</name>    
  <value>10.10.10.10:18141</value>    
</property>    
<property>    
  <name>yarn.nodemanager.aux-services</name>    
  <value>mapreduce_shuffle</value>    
</property>    
<property>    
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>    
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>    
</property>    
</configuration> 

 

5.格式化 namenode 

如果hadoop的环境变量已经配好了,那么就可以在任意地方执行以下命令

hadoop namenode -format

 

6.启动

执行命令

cd sbin/  进入hadoop安装(解压)目录的sbin目录下
./start-all.sh  启动hadoop

slave主机的配置与master主机是一样的,可以直接将以上配置过的文件复制粘贴过去,就可以启动了

就到这里吧......世界杯开始了开始了!!!

 

以上是关于hadoop集群安装的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop集群(第3期)_VSFTP安装配置

学习笔记Hadoop—— Hadoop集群的安装与部署—— 配置Hadoop集群

HBase集群安装及集成

spark集群安装并集成到hadoop集群

大数据实战——hadoop集群安装搭建

Spark集群安装-基于hadoop集群