大数据平台环境搭建
Posted zihao_bluefo2k
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据平台环境搭建相关的知识,希望对你有一定的参考价值。
文章目录
任务一:大数据平台环境搭建
注:配上大数据组件下载地址:Index of /dist (apache.org)
一、Docker 容器环境安装配置
1. 安装 Docker 服务
Docker 旧版本
yum install -y docker
查看 docker 是否安装成功
docker -v
rpm -qa | grep -i docker
卸载 docker
yum remove -y docker-*
Docker 新版本(手动安装)
安装依赖的软件包
yum install -y yum-utils device-mapper-persistent-data lvm2
添加 docker 的 Yum 源
配置 docker 的 yum 源是为了安装 docker 的时候速度更快,更稳定,成功率高
yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
安装 docker
yum install -y docker-ce docker-ce-cli containerd.io
查看 docker 是否安装成功
docker -v
Docker 新版本(自动安装)
卸载 docker
yum remove -y docker-*
安装 docker
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
查看 docker 是否安装成功
docker -v
2. Docker 服务
启动 docker 服务
systemctl start docker
开机启动 docker 服务
systemctl enable docker
查看 docker 服务状态
systemctl status docker
重启 docker 服务
systemctl restart docker
3. 配置 docker 镜像加速器
配置镜像加速器是为了让我们从仓库拉取镜像的时候速度更快,更稳定,成功率高
配置加速器
vim /etc/docker/daemon.json
"registry-mirrors": [
"http://hub-mirror.c.163.com",
"https://docker.mirrors.ustc.edu.cn",
"https://mirror.ccs.tencentyun.com",
"https://3iy7bctt.mirror.aliyuncs.com"
]
重新加载配置文件
systemctl daemon-reload
重启 docker 服务
systemctl restart docker
查看 docker 服务状态
systemctl status docker
查看加速器是否配置成功
docker info
4. Docker 镜像基本命令
查看镜像
docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
注意:
REPOSITORY:来源仓库
TAG:镜像的标签信息,表示镜像的版本,只是标记,并不能表示镜像内容
IMAGE ID:镜像 id,唯一表示一个镜像,如果两个镜像的 ID 相同,说明它们实际上指向了同一个镜像,只是具有不同标签名称而已
CREATED:镜像的最后更新时间
SIZE:镜像大小
搜索镜像
docker search centos
拉取镜像
当我们在本地主机上使用一个不存在的镜像时,Docker 就会自动下载这个镜像,如果我们想预先下载这个镜像,我们可以使用 docker pull 命令来下载它
docker pull centos:7.5.1804
docker pull mysql:5.7
docker pull hello-world
docker images
注意:如果不加版本号,则默认版本号为最新的
注意:镜像拉取完成后,我们可以用镜像来运行容器
删除镜像
使用 tag 标签删除镜像
注意:如果删除的时候报错:有容器使用了该镜像,则需要先删除使用过该镜像的容器,才能删除该镜像
# docker rmi 镜像名:版本号
docker rmi -f hello-world:latest
docker images
使用 id 删除镜像
# docker rmi id号
docker rmi -f feb5d9fea6a5
把镜像保存为具体文件
# docker save -o 本地路径+文件名
# 注意:文件名建议.tar结尾
docker save -o centos.tar centos:7.5.1804
把镜像加载到 docker 中
方法一:
docker load -i centos.tar
docker load --input centos.tar
方法二:
docker load < centos.tar
5. Docker 容器基本命令
创建容器
docker create -i -t -h bigdata2 --name centos100 centos:7.5.1804 /bin/bash
# -h HOSTNAME:设定容器的主机名,它会被写到容器内的 /etc/hostname 和 /etc/hosts
# docker create -i -t -h master --name masterbigdata centos:7.5.1804 /bin/bash
# --name="名称": 为容器指定一个名称
docker create -it centos:7.5.1804 /bin/bash
注意:
-
容器的名称是唯一的
-
如果不指定容器名称,docker 会自动分配
查看容器
# 查看所有容器
docker ps -a
# 查看所有运行状态的容器
docker ps
启动容器
docker start 容器名称/ID
停止容器
docker stop 容器名称/ID
进入容器
方式一:
# docker exec -i -t 容器ID/名称 /bin/bash
方式二:
# docker attach 容器ID/名称
区别:exec 用 exit 退出时,不停止容器;attach 用 exit 退出时,停止容器
exit | ctrl+p->ctrl+q | |
---|---|---|
exec | 退出不停止容器 | 退出不停止容器 |
attach | 退出停止容器 | 退出不停止容器 |
退出容器
exit
重启容器
# docker restart 容器ID/名称
删除容器
- 删除未启动的容器
# docker rm 容器ID/名称
- 删除启动的容器
# docker stop 容器ID/名称
- 强制删除启动的容器
# docker rm -f 容器ID/名称
一步完成新建和启动容器
docker run -i -t -h bigdata2 --name centos102 centos:7.5.1804 /bin/bash
# -h HOSTNAME:设定容器的主机名,它会被写到容器内的 /etc/hostname 和 /etc/hosts
# docker run -i -t -h master --name masterbigdata centos:7.5.1804 /bin/bash
# --name="名称": 为容器指定一个名称
docker run -i -t -d -h master --name masterbigdata centos:7.5.1804 /bin/bash
docker run -i -t -d -h slave1 --name slave1bigdata centos:7.5.1804 /bin/bash
docker run -i -t -d -h slave2 --name slave2bigdata centos:7.5.1804 /bin/bash
# docker exec -i -t 容器ID/名称 /bin/bash
相当于
docker pull # (本地不存在镜像,则会拉取)
docker create
docker start
docker exec
后台启动容器
docker run -i -t -h bigdata3 --name centos103 -d centos:7.5.1804 /bin/bash
注意:
-d 指启动容器后,但不进入容器,挂后台
启动 MySQL 容器
docker run -p 3307:3306 --name mysql1 -e MYSQL_ROOT_PASSWORD=000000 -d mysql:5.7
注意:
-p 指定主机映射的端口号和 MySQL 的端口号,格式为 3307:3306
-e 指定 root 用户名密码:-e MYSQL_ROOT_PASSWORD=000000
获取所有的容器 ID
docker ps -a -q
删除所有容器
docker rm -f $(docker ps -a -q)
docker rm -f `docker ps -a -q`
杀死所有运行容器
docker stop $(docker ps -a -q)
docker stop `docker ps -a -q`
docker kill $(docker ps -a -q)
docker kill `docker ps -a -q`
注意:docker kill 比 docker stop 停止容器要快
启动所有容器
docker start $(docker ps -a -q)
docker start `docker ps -a -q`
导入和导出容器
思路:修改 centos 容器 --> 导出成 .tar 文件 --> .tar 文件导入到新系统(以镜像的方式存在) --> 通过镜像启动容器
- 导出容器
docker export -o abc.tar 0925e9bc7ef1
docker export 0925e9bc7ef1 > abc.tar
- 导入容器
# docker import 文件路径/文件名 镜像名:版本号
docker import abc.tar centos:2
容器与主机之间复制文件
容器和主机之间复制文件的时候,要保证容器已经启动
从主机复制文件到容器中:
docker cp ./docker101.txt 18e9a72a0bd4:/
从容器复制文件到主机中:
docker cp 18e9a72a0bd4:/docker102.txt ./
注意:
-
容器与主机之间复制文件,容器需要是启动状态
-
容器与容器之间不能复制文件
二、Hadoop 完全分布式安装配置
1. 修改 IP 和 MAC 地址
三台机器都要修改
vi /etc/sysconfig/network-scripts/ifcfg-ens33 # 进入本机网卡配置文件
添加如下内容
ONBOOT="yes" # 启动时是否激活 yes | no
BOOTPROTO="static" # 协议类型
IPADDR=192.168.44.100 # 网络IP地址
NETMASK=255.255.255.0 # 网络子网地址
GATEWAY=192.168.44.2 # 网关地址
HWADDR=00:0C:29:11:26:A1 # 网卡MAC地址
DNS1=8.8.8.8 # 域名服务
重启网卡
service network restart
使用 ping 命令测试网络的连通性
ping www.baidu.com
关闭 centos7 蜂鸣器声音
cd /etc/modprobe.d
vi pcspkr.conf
# 添加内容如下
blacklist pcspkr
保存之后重启
安装 net-tools 包
yum install net-tools
安装 vim 命令
yum -y install vim*
2. 修改主机名
vim /etc/hostname
添加如下内容
bigdata1
另外两台分别添加
slave1
slave2
或者
三台机器同时执行
hostnamectl set-hostname bigdata1
bash # 查看更改是否生效
hostnamectl set-hostname slave1
bash # 查看更改是否生效
hostnamectl set-hostname slave2
bash # 查看更改是否生效
3. 设置 IP 和域名映射
vim /etc/hosts
添加内容如下,另外两台也分别添加
192.168.44.100 bigdata1
192.168.44.110 slave1
192.168.44.120 slave2
设置完成后,重启三台主机(用第二种方式修改主机名可不重启)
reboot
4. 关闭防火墙
三台机器同时执行
systemctl stop firewalld # 关闭防火墙
systemctl disable firewalld # 禁止开机启动
systemctl status firewalld # 检查防火墙状态
5. 关闭 SELINUX
三台机器同时执行
修改 SELINUX 的配置文件
vim /etc/selinux/config
修改内容如下
# 将 SELINUX=enforcing 修改为 SELINUX=disabled
SELINUX=disabled
6. 免密登录
三台机器同时执行
ssh-keygen -t rsa # 生成公私钥
三台机器同时执行
ssh-copy-id bigdata1 # 拷贝公钥到bigdata1
在 bigdata1 机器上使用如下命令
scp -r /root/.ssh/authorized_keys slave1:/root/.ssh
scp -r /root/.ssh/authorized_keys slave2:/root/.ssh
7. 时钟同步
三台机器同时执行
crontab -e
添加内容如下
*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;
或者
三台机器同时执行
timedatectl timezones Aisa/Shanghai
8. JDK 安装
查看自带的 openjdk 并卸载
rpm -qa | grep java # 搜索java相关的rpm包
yum -y remove # 卸载当前jdk的rpm包
创建安装目录
mkdir -p /export/softwares # 软件包存放目录
mkdir -p /export/servers # 安装目录
上传并解压
在客户端(SerT)中进行登录,用 rz -E 的命令工具进行上传,如果没有,则进行下载
yum -y install lrzsz
cd /export/softwares/
rz -E
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /export/servers # 解压到/export/servers
将 jdk1.8.0_212 重命名为 java
cd /export/servers/
mv jdk1.8.0_212 java
配置环境变量
vim /etc/profile
添加内容如下
# JDK
export JAVA_HOME=/export/servers/java
export PATH=$PATH:$JAVA_HOME/bin
重启生效
source /etc/profile
测试是否成功安装
java -version
在 bigdata1 机器上执行如下命令
scp -r /export/servers/java/ slave1:/export/servers # 将JDK发送给slave1
scp -r /export/servers/java/ slave2:/export/servers # 将JDK发送给slave2
scp -r /etc/profile slave1:/etc/profile # 将/etc/profile发送给slave1
scp -r /etc/profile slave2:/etc/profile # 将/etc/profile发送给slave2
在 slave1 和 slave2 执行如下命令
source /etc/profile # 重启生效
配置环境变量对当前 root 用户生效
vim /root/.bash_profile
配置环境变量对全局生效
vim /etc/profile
9. HADOOP 安装
集群规划
Bigdata1 | Slave1 | Slave2 | |
---|---|---|---|
HDFS | NameNode | ||
DataNode | DataNode | DataNode | |
SecondaryNameNode | |||
YARN | NodeManager | NodeManager | NodeManager |
ResourceManager |
上传并解压
cd /export/softwares/
rz -E
tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers # 解压到/export/servers
将 hadoop-3.1.3 重命名为 hadoop
cd /export/servers/
mv hadoop-3.1.3 hadoop
配置环境变量
vim /etc/profile
添加内容如下
# HADOOP
export HADOOP_HOME=/export/servers/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
重启生效
source /etc/profile
测试是否成功安装
hadoop version
在 bigdata1 机器上执行如下命令
scp -r /export/servers/hadoop/ slave1:/export/servers/ # 将HADOOP发送给slave1
scp -r /export/servers/hadoop/ slave2:/export/servers/ # 将HADOOP发送给slave1
scp -r /etc/profile slave1:/etc/profile # 将/etc/profile发送给slave1
scp -r /etc/profile slave2:/etc/profile # 将/etc/profile发送给slave2
在 slave1 和 slave2 执行如下命令
source /etc/profile # 重启生效
进入 HADOOP 配置文件目录下
cd /export/servers/hadoop/etc/hadoop
-
修改 hadoop-env.sh 配置文件
vim hadoop-env.sh # 添加内容如下 export JAVA_HOME=/export/servers/java export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root
-
修改 core-site.xml 配置文件
vim core-site.xml <!-- 添加内容如下 --> <configuration> <!-- 指定 HDFS 中 NameNode 的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://bigdata1:8020</value> </property> <!-- 指定 hadoop 运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/export/servers/hadoop/data</value> </property> <!-- 配置 HDFS 网页登录使用的静态用户为 root --> <property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property> </configuration>
-
修改 hdfs-site.xml 配置文件
vim hdfs-site.xml <!-- 添加内容如下 --> <configuration> <!-- nn web 端访问地址--> <property> <name>dfs.namenode.http-address</name> <value>bigdata1:9870</value> </property> <!-- 2nn web 端访问地址--> <property> <name>dfs.namenode.secondary.http-address</name> <value>bigdata1:9868</value> </property> </configuration>
-
修改 yarn-site.xml 配置文件
vim yarn-site.xml <!-- 添加内容如下 --> <configuration> <!-- 指定 MR 走 shuffle --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 指定 ResourceManager 的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata1</value> </property> <!-- 环境变量的继承 --> <property> <name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_C ONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> </property> </configuration>
-
修改 mapred-site.xml 配置文件
vim mapred-site.xml <!-- 添加内容如下 --> <configuration> <!-- 指定 MapReduce 程序运行在 Yarn 上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
修改 workers 配置文件
vim workers # 添加内容如下 bigdata1 slave1 slave2
在 bigdata1 机器上执行如下命令
scp -r /export/servers/hadoop/etc/hadoop/ slave1:/export/servers/hadoop/etc/ # 将HADOOP的配置文件发送给slave1
scp -r /export/servers/hadoop/etc/hadoop/ slave2:/export/servers/hadoop/etc/ # 将HADOOP的配置文件发送给slave2
启动集群
-
在 bigdata1 机器上对 NameNode 进行格式化
hdfs namenode -format
-
启动 HDFS
cd /export/servers/hadoop
sbin/start-dfs.sh
查看 HDFS 是否启动
[root@bigdata1 hadoop]# jps 1683 NameNode 2053 SecondaryNameNode 1853 DataNode 2174 Jps
-
启动 YARN
cd /export/servers/hadoop
sbin/start-yarn.sh
查看 YARN 是否启动
[root@bigdata1 hadoop]# jps 1683 NameNode 2053 SecondaryNameNode 2774 Jps 2312 ResourceManager 2459 NodeManager 1853 DataNode
-
Web 端查看 HDFS 的 NameNode
浏览器中输入:http://192.168.44.100:9870
查看 HDFS 上存储的数据信息
-
Web 端查看 YARN 的 ResourceManager
浏览器中输入:http://192.168.44.100:8088
查看 YARN 上运行的 Job 信息
配置历史服务器
cd /export/servers/hadoop/etc/hadoop
vim mapred-site.xml
<!-- 添加内容如下 -->
<configuration>
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata1:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata1:19888</value>
</property>
</configuration>
在 bigdata1 机器上执行如下命令
scp -r /export/servers/hadoop/etc/hadoop/ slave1:/export/servers/hadoop/etc/ # 将HADOOP的配置文件发送给slave1
scp -r /export/servers/hadoop/etc/hadoop/ slave2:/export/servers/hadoop/etc/ # 将HADOOP的配置文件发送给slave2
重新启动 YARN 后在 bigdata1 机器上启动历史服务器
stop-yarn.sh
start-yarn.sh
mapred --daemon start historyserver
查看历史服务器是否启动
[root@bigdata1 ~]# jps
10689 ResourceManager
10838 NodeManager
9079 DataNode
11399 Jps
8908 NameNode
9278 SecondaryNameNode
11342 JobHistoryServer
Web 端查看 YARN 的 JobHistory
浏览器中输入:http://192.168.44.100:19888
查看 YARN 上运行的 JobHistory 信息
10. HADOOP 官方文档
在比赛期间,如果忘记了 hadoop 的配置文件该如何去写,可以用一种方法,在虚拟机上原有的 hadoop 安装包下载到我们 windows 上
cd /export/softwares
# 使用sz命令下载到Windows上
sz hadoop-3.1.3.tar.gz
查看 windows 下下载的 hadoop-3.1.3.tar.gz 压缩文件,进行解压缩,解压缩后进入 hadoop-3.1.3 文件夹
进入 hadoop-3.1.3\\share\\doc\\hadoop 这个目录下,有一个 index 的 html 文件,双击进去
里面有相关 hadoop 的配置文档供我们查看并记忆,而且这样比赛不算违规
三、Mysql 安装配置
1. 卸载系统自带的 Mariadb
rpm -qa | grep mariadb
rpm -e --nodeps mariadb-libs-5.5.68-1.el7.x86_64
2. 删除 etc 目录下的 my.cnf 文件
rm -rf /etc/my.cnf
3. 检查 MySQL 是否存在
rpm -qa | grep mysql
检查 mysql 组是否存在
cat /etc/group | grep mysql
检查 mysql 用户是否存在
cat /etc/passwd | grep mysql
创建 mysql 用户组
groupadd mysql
创建 mysql 用户,并将 mysql 用户添加到 mysql 用户组
useradd -g mysql mysql
为 mysql 用户指定密码为 passwd
passwd mysql
4. 上传并解压
cd /export/softwares/
rz -E
tar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz -C /export/servers # 解压到/export/servers
将文件重命名为 mysql
cd /export/servers/
mv mysql-5.7.18-linux-glibc2.5-x86_64/ mysql
在 mysql 文件下创建 data 文件夹
cd /export/servers/mysql/
mkdir data
更改 mysql 文件夹所属的组和用户
cd /export/servers
# 更改 mysql 文件夹所属用户
chown -R mysql mysql/
# 更改 mysql 文件夹所属用户组
chgrp -R mysql mysql/
5. 新建配置文件 my.cnf
# 新建 my.cnf 文件
touch /etc/my.cnf
# 编辑 my.cnf 文件
vim /etc/my.cnf
在 my.cnf 文件内添加以下配置
[mysql]
# 设置 mysql 客户端默认字符集
default-character-set=utf8
[mysqld]
# skip-name-resolve
# 设置 3306 端口
port=3306
# 设置 mysql 的安装目录
basedir=/export/servers/mysql/
# 设置 mysql 数据库的数据的存放目录
datadir=/export/servers/mysql/data
# 允许最大连接数
max_connections=200
# 服务端使用的字符集默认为 8 比特编码的 latin1 字符集
以上是关于大数据平台环境搭建的主要内容,如果未能解决你的问题,请参考以下文章