我的第一篇博客

Posted 2020-11-10 bittli

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了我的第一篇博客相关的知识，希望对你有一定的参考价值。

Hadoop的三种模式搭建

准备工作（对Linux客户机的操作）

安装Linux（centOS7）
关闭防火墙、IP主机名映射（vi /etc/hosts）、修改主机名（vi /etc/hostname）

安装jdk

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module

配置环境变量

vi /etc/profile

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=PATH=$PATH:$JAVA_HOME/bin

使环境变量生效
source /etc/profile

Hadoop本地模式（客户机1台）

安装Hadoop

tar -zxvf hadoop-2.8.4.tar.gz -C /opt/module

配置环境变量

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.8.4/
export PATH=PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使环境变量生效
source /etc/profile

配置文件

hadoop-en.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

Hadoop自带example程序测试

目录/opt/module/hadoop-2.8.4/share/hadoop/mapreduce的hadoop-mapreduce-examples-2.8.4.jar

Hadoop伪分布模式（客户机1台）

集群规划

bigdata111 bigdata112 bigdata113

HDFS NN SN DN DN DN

YARN NM RM NM NM

NN：NameNode DN：DataNode SN：SecondaryNameNode

RM：ResourceManager NM：NodeManager
免密码登录
- 生成公钥和私钥 ssh-keygen -t rsa 连续三个回车
- ssh-copy-id 主机1
- ssh-copy-id 主机2
- ssh-copy-id 主机3

	bigdata111	bigdata112	bigdata113
HDFS	NN SN DN	DN	DN
YARN	NM	RM NM	NM

安装Hadoop、配置环境变量

配置文件

core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
 <name>fs.defaultFS</name>
 <value>hdfs://主机名1:9000</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
 <name>hadoop.tmp.dir</name>
 <value>/opt/module/hadoop-2.X.X/data/tmp</value>
</property>

hdfs-site-xml

<!--数据冗余数-->
<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>

<!--secondary的地址-->
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>主机名1:50090</value>
</property>

<!--关闭权限-->
<property>
 <name>dfs.permissions</name>
 <value>false</value>
</property>

yarn-site.xml

<!-- reducer获取数据的方式 -->
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>主机名1</value>
</property>

<!-- 日志聚集功能使能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>

<!-- 日志保留时间设置7天(秒) -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

mapred-site.xml

<!-- 指定mr运行在yarn上-->
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<!--历史服务器的地址-->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>主机名1:10020</value>
</property>

<!--历史服务器页面的地址-->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>主机名1:19888</value>
</property>

hadoop-en.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

格式化NameNode
```
hadoop namenode -format
```

Hadoop全分布模式（客户机3台）

三台机器：都是比伪分布模式多配置一个文件slaves

    bigdata111、bigdata112、bigdata113（自己设置的主机名）

以上是关于我的第一篇博客的主要内容，如果未能解决你的问题，请参考以下文章