打怪升级之小白的大数据之旅(四十二)<Hadoop运行环境搭建>

Posted GaryLea

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了打怪升级之小白的大数据之旅(四十二)<Hadoop运行环境搭建>相关的知识,希望对你有一定的参考价值。

打怪升级之小白的大数据之旅(四十二)

Hadoop运行环境搭建

上次回顾

上一章,我们学习了大数据的相关概念以及Hadoop的基础介绍,本章节主要介绍Hadoop的环境搭建;配置的点比较多,当下一章Hadoop集群配置结束后,我专门将可能出错的地方做个总结,方便大家配合使用

Hadoop运行环境搭建

  • 环境搭建前,我先列一个Hadoop的整体大纲,方便大家进行理解哈,本章节主要是对Hadoop运行环境搭建进行分享,下一章对Hadoop运行模式搭建进行分享,它们的区别就是,运行环境搭建只是一台的服务器,而下一章是对整个集群进行搭建
  • 另外注意一下,在本章结束后,小伙伴可能会问,三台服务器为什么现在就克隆,为什么不等到整个运行环境搭建完成再克隆?这是为了后面集群的分发做铺垫的哈,所以跟着我的步骤操作就好了

环境搭建步骤

  • 配置虚拟环境
    • 克隆虚拟机
    • 修改静态IP
    • 安装必要插件
    • 修改hostname
    • 修改hosts
    • 关闭防火墙
    • 创建Hadoop的统一用户
    • 在opt/目录下创建专门存放jdk与hadoop的目录
  • 安装JDK与Hadoop
    • 安装jdk
    • 配置jdk的环境变量
    • 安装hadoop
    • 配置hadoop的环境变量

Hadoop运行模式搭建

  • 本地运行模式测试
  • 完全分布式运行模式搭建
    • 虚拟机准备
    • 集群分发脚本
    • SSH无密登录
    • 集群配置
    • 群起集群配置
    • 集群的启动与停止
    • 配置历史服务器
    • 配置集群的时间同步

我来总结一下哈,hadoop运行环境搭建总体就两步,第一步是虚拟环境的搭建,第二步就是安装jdk与hadoop,每一步里面都有一些小的配置,知道了整体的步骤后,接下来让我们正式开始

配置虚拟环境

首先我们需要准备三台虚拟机,在介绍Linux时我有说过,让大家提前建立一台无界面的CentOS虚拟机,现在派上用场了,忘了的详见Linux基础知识CentOS安装第十五步,另外,建议单台虚拟机的配置为:内存4G,硬盘50G,安装CentOS7无界面操作系统

第一步:
创建好虚拟机后,接下来我们进行克隆->完整克隆,然后保存在我前面提到的专用虚拟机文件夹中,建议大家跟我配置一样哈,虚拟机名称分别为hadoop102,hadoop103,hadoop104
在这里插入图片描述

第二步:修改静态IP,这块详见我们在Linux基础中学习到的网络配置,我就直接上虚拟机的配置了,注意啦,我们刚开始的虚拟机是没有vim的,我先对hdaoop102虚拟机进行配置

  1. 打开hadoop102虚拟机并进入ip的配置文件
  2. 查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8
  3. 查看Windows系统适配器VMware Network Adapter VMnet8的IP地址
  4. 保证Linux文件中IP地址、Linux虚拟网络编辑器地址和Windows系统VM8网络IP地址相同
# 打开hadoop102虚拟机并进入ip的配置文件
vi /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改hadoop102的ip
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.1.102
GATEWAY=192.168.1.2
DNS1=114.114.114.114

第三步:安装必要插件,因为我上一步说了,此时是纯净版的系统,因此我们需要安装必要的插件,直接复制下面的命令就好

yum install -y epel-release
yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git

第四步:修改主机名

vim /etc/hostname
# 将里面的localhost这一行删除掉,然后根据我们虚拟机的名称进行配置
hadoop102

第五步:修改hosts文件,我们前面在网络配置时也讲过哈,它是主机名称的映射,等集群的时候就知道为什么要配置它了

# 进入主机名称映射的配置文件
sudo vim /etc/hosts
# 修改内容如下
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

第六步:修改windows中的hosts文件,当然了,除了我们的虚拟机,我们还要在Windows中配置,我们后面的hadoop都是使用xshell进行连接的

1.进入C:\\Windows\\System32\\drivers\\etc路径
2.打开hosts文件并添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
3. 如果发现我们无法修改保存,那就把整个hosts拖到复制或移动到桌面上再进行修改保存,然后再放回到原位即可

第七步:关闭防火墙,这一步是为了后面集群用的,集群就是很多的服务器,服务器之间要相互连接,所以我们不需要防火墙

# 关闭防火墙
systemctl stop firewalld
# 禁止防火墙开机启动
systemctl disable firewalld

第八步:创建hadoop集群共同的用户,这里的用户是我们以后操作的用户,不论后面什么操作都是它,以后就不会再用root了,因为它是超级管理员,如果误操作不太好…

# 创建用户
useradd hadoopuser
passwd 123456

第九步:配置hadoopuser用户具有root权限,这个知识点在Linux常用命令的用户管理中讲过哈,在91行下面,行号使用vim的:set nu

# 打开用户权限文件 
visudo
# 添加hadoopuser拥有root所有权限
root    ALL=(ALL)     ALL
hadoopuser ALL=(ALL)    NOPASSWD:ALL

第十步:在/opt下创建文件夹,用于存放安装jdk与hadoop,记得修改用户的所属主与所属组,因为我们以后的操作都是使用我们刚刚建立的那个用户,module用户安装jdk和Hadoop,software用于存放安装包

# 进入/opt文件夹下
cd /opt
# 创建文件
mkdir module
mkdir software
# 修改权限的所属主与所属组
chown hadoopuser:hadoopuser /opt/module /opt/software

最后一步:好了,我们将基础的虚拟环境配置好了,接下来重启一下我们的虚拟机,让前面的配置生效

reboot

安装JDK与Hadoop

第一步:下载jdk与hadoop的安装包

  • 前面的虚拟环境配置完毕之后,我们开始进行jdk与Hadoop的安装
  • 因为Hadoop是用Java写的,所以我们需要安装java的jdk,这也是我们为什么开篇就学习java的原因
  • jdk与hadoop的安装包可以私信我,也可以自行去官网下载,一定记得下载编译好的软件包,java的选择
    在这里插入图片描述
  • hadoop的选择,Binary的编译好的
    在这里插入图片描述
    jdk的下载地址:https://www.java.com/zh-CN/download/manual.jsp
    jdklinux的下载地址: https://javadl.oracle.com/webapps/download/AutoDL?BundleId=244575_d7fc238d0cbf4b0dac67be84580cfb4b
    hadoop下载地址:https://hadoop.apache.org/releases.html
    

第二步:安装jdk与hadoop,我们下载的是编译好的,直接是无安装版,直接使用tar进行解压即可

  • 首先我们使用xftp将安装包放到我们前面建立的/opt下的software文件夹中
    在这里插入图片描述
  • 接下来使用tar命令将jdk解压到module中,记得先解压jdk,然后再解压hadoop
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

第三步:配置jJDK的环境变量,这里就和Windows中设置系统环境变量一样的,我们也在Linux中设置JDK的环境变量

  • 首先我们要进入我们的环境变量配置文件夹下,然后自定义一个配置文件脚本,这样我们以后就可以很方便地管理我们自定义安装的软件了
    # 进入环境变量配置文件夹
    cd /etc/profile.d
    # 新建一个环境变量配置文件
    vim my_env.sh
    # 配置JDK的环境变量为全局变量
    #JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_212
    export PATH=$PATH:$JAVA_HOME/bin
    

第四步:保存退出后重新加载一下配置的文件,然后测试jdk是否安装成功

# 方法一,使用source进行重新加载配置
source my_env.sh
# 方法二,重启虚拟机,让系统自己重新加载配置
reboot
# 测试java命令是否成功的设置成全局环境变量
java -version

第五步:安装Hadoop,步骤和安装jdk一样

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

第六步:配置Hadoop的环境变量为全局变量,再次进入我们设置jdk的那个脚本

# 进入环境变量配置文件夹
cd /etc/profile.d
# 新建一个环境变量配置文件
vim my_env.sh
# 配置JDK的环境变量为全局变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

第七步:保存退出并测试,这里重复第四步的动作

# 重新加载我们的脚本
source my_env.sh
# 测试是否成功
hadoop version

成功的运行结果
在这里插入图片描述

Hadoop的目录结构

到此我们的Hadoop就安装完成了,接下来我来介绍一下Hadoop的目录结构,cd到我们module下的hadoop文件夹下可以看到它们目录结构如下:
在这里插入图片描述
咳咳,我习惯性的对我的用户信息进行马赛克,个人习惯哈,这个不是什么重要的东西…

目录结构详解

我因为测试了一下是否安装成功,因此就多了data,logs input ouput这些文件夹下,后面我会介绍它们的,不用担心,现在忽略它们

  1. bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
  2. etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
  3. lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
  4. sbin目录:存放启动或停止Hadoop相关服务的脚本
  5. share目录:存放Hadoop的依赖jar包、文档、和官方案例

总结

  • 本章对Hadoop的单机环境配置进行了分享,Hadoop最重要的就是集群,多个服务器,因此我专门把它们拆开来讲哈。今天内容就到这里,如果整个过程有问题,欢迎随时后台私信我,
  • 对了,配置虚拟环境的第二步到第五步,一定记得在hadoop103和hadoop104服务器上都改一下,我们下一章要用它们,还有第九步,我们在三个服务器上都要建立相同的账号和配合

以上是关于打怪升级之小白的大数据之旅(四十二)<Hadoop运行环境搭建>的主要内容,如果未能解决你的问题,请参考以下文章

打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>

打怪升级之小白的大数据之旅(四十八)<初识MapReduce>

打怪升级之小白的大数据之旅(四十四)<Hadoop搭建过程中的一些问题>

打怪升级之小白的大数据之旅(四十五)<认识HDFS与常用操作>

打怪升级之小白的大数据之旅(四十)<Shell编程>

打怪升级之小白的大数据之旅(四十七)<HDFS扩展知识点>