我的第一篇博客

Posted bittli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我的第一篇博客相关的知识,希望对你有一定的参考价值。

Hadoop的三种模式搭建

准备工作(对Linux客户机的操作)

  • 安装Linux(centOS7)

  • 关闭防火墙、IP主机名映射(vi /etc/hosts)、修改主机名(vi /etc/hostname)

  • 安装jdk

    tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module

    配置环境变量

    vi /etc/profile
    
    #JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_144
    export PATH=PATH=$PATH:$JAVA_HOME/bin
    
    使环境变量生效
    source /etc/profile

Hadoop本地模式(客户机1台)

  1. 安装Hadoop

    tar -zxvf hadoop-2.8.4.tar.gz -C /opt/module
  2. 配置环境变量

    #HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-2.8.4/
    export PATH=PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    使环境变量生效
    source /etc/profile
  3. 配置文件

    hadoop-en.sh

    export JAVA_HOME=/opt/module/jdk1.8.0_144
  4. Hadoop自带example程序测试

    目录/opt/module/hadoop-2.8.4/share/hadoop/mapreduce的hadoop-mapreduce-examples-2.8.4.jar

Hadoop伪分布模式(客户机1台)

  • 集群规划

    bigdata111 bigdata112 bigdata113
    HDFS NN SN DN DN DN
    YARN NM RM NM NM

    NN:NameNode DN:DataNode SN:SecondaryNameNode

    RM:ResourceManager NM:NodeManager

  • 免密码登录
    • 生成公钥和私钥 ssh-keygen -t rsa 连续三个回车
    • ssh-copy-id 主机1
    • ssh-copy-id 主机2
    • ssh-copy-id 主机3
  1. 安装Hadoop、配置环境变量

  2. 配置文件

    core-site.xml

    <!-- 指定HDFS中NameNode的地址 -->
    <property>
     <name>fs.defaultFS</name>
     <value>hdfs://主机名1:9000</value>
    </property>
    
    <!-- 指定hadoop运行时产生文件的存储目录 -->
    <property>
     <name>hadoop.tmp.dir</name>
     <value>/opt/module/hadoop-2.X.X/data/tmp</value>
    </property>

    hdfs-site-xml

    <!--数据冗余数-->
    <property>
     <name>dfs.replication</name>
     <value>3</value>
    </property>
    
    <!--secondary的地址-->
    <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>主机名1:50090</value>
    </property>
    
    <!--关闭权限-->
    <property>
     <name>dfs.permissions</name>
     <value>false</value>
    </property>

    yarn-site.xml

    <!-- reducer获取数据的方式 -->
    <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
    </property>
    
    <!-- 指定YARN的ResourceManager的地址 -->
    <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>主机名1</value>
    </property>
    
    <!-- 日志聚集功能使能 -->
    <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
    </property>
    
    <!-- 日志保留时间设置7天(秒) -->
    <property>
     <name>yarn.log-aggregation.retain-seconds</name>
     <value>604800</value>
    </property>

    mapred-site.xml

    <!-- 指定mr运行在yarn上-->
    <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
    </property>
    
    <!--历史服务器的地址-->
    <property>
     <name>mapreduce.jobhistory.address</name>
     <value>主机名1:10020</value>
    </property>
    
    <!--历史服务器页面的地址-->
    <property>
     <name>mapreduce.jobhistory.webapp.address</name>
     <value>主机名1:19888</value>
    </property>

    hadoop-en.sh

    export JAVA_HOME=/opt/module/jdk1.8.0_144
  3. 格式化NameNode

    hadoop namenode -format

Hadoop全分布模式(客户机3台)

  • 三台机器:都是比伪分布模式多配置一个文件slaves
    bigdata111、bigdata112、bigdata113(自己设置的主机名)

以上是关于我的第一篇博客的主要内容,如果未能解决你的问题,请参考以下文章

我的第一篇博客

我的第一篇博客(typescript学习笔记)

我的第一篇博客

我的第一篇博客园随笔

我的第一篇博客

我的第一篇博客《Hello World》