centos7 分布式集群hadoop与hive安装
Posted 机器学习模型与Python入门
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了centos7 分布式集群hadoop与hive安装相关的知识,希望对你有一定的参考价值。
一、安装环境及版本号
配置:1核2G腾讯云服务器 系统:centos7.2 数量:3台 hadoop版本:2.7.6 hive版本:2.3.4
仅用于熟悉hadoop集群及hive的安装,仅适用于小小小型数据集的测试,希望对环境不熟悉的朋友有帮助;
二、hadoop安装
1、配置IP
在每台服务器中的 /etc/hosts增加ip,腾讯云服务器实验使用公网,如
132.232.15.xxx hadoop00 132.232.42.xxx hadoop01 132.232.42.xxx hadoop02
其中hadoop00作为NameNode、DataNode、ResourceManager、NodeManager,
hadoop01作为DataNode、NodeManager
2、配置ssh免密登陆
a、生成密钥:ssh-keygen -t rsa
b、拷贝公钥至其他服务器(每台服务器需要执行)
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop00 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop02
测试 ssh hadoop00是否可以免密登陆
[root@VM_0_2_centos ~]# ssh hadoop01 Last login: Wed Nov 28 21:30:33 2018 from 116.228.30.6
3、安装JDK
a、下载jdk1.8 使用linux自带命令
wget https://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz?AuthParam=1543414359_fa12a8fd64583cfe3dbb6b834a3206af
b、解压
tar -zxvf jdk-8u131-linux-x64.tar.gz
c、移动文件至/usr/local/jdk下
mv ./jdk1.8.0_131 /usr/local/jdk1.8
d、增加环境变量
JAVA_HOME=/usr/local/jdk1.8/ JAVA_BIN=/usr/local/jdk1.8/bin JRE_HOME=/usr/local/jdk1.8/jre PATH=$PATH:/usr/local/jdk1.8/bin:/usr/local/jdk1.8/jre/bin CLASSPATH=/usr/local/jdk1.8/jre/lib:/usr/local/jdk1.8/lib:/usr/local/jdk1.8/jre/lib/charsets.jar export PATH=$PATH:/usr/local/mysql/bin/ source /etc/profile
e、通过rsync命令将jdk及配置同步至其他机器
scp -r jdk1.8 root@hadoop02:/usr/local/ 或者 rsync -av /usr/local/jdk1.8 hadoop01:/usr/local rsync -av /usr/local/jdk1.8 hadoop02:/usr/local rsync -av /etc/profile hadoop01:/etc/profile rsync -av /etc/profile hadoop02:/etc/profile
完成之后检查其他服务器是否安装成功
4、Hadoop下载及安装
a、下载hadoop安装包
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/
b、编辑配置文件及配置JAVA_HOME环境
进入hadoop-2.7.6/etc/hadoop下 在hadoop-env.sh增加JAVA_HOME环境 export JAVA_HOME=/usr/local/jdk1.8/ 在系统环境中bash_profile增加hadoop环境 export HADOOP_HOME=/usr/local/hadoop-2.7.6 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
c、分别编辑core-site.xml和hdfs-site.xml文件,配置文件可网上查找
d、增加配置相应的临时文件夹
e、配置yarn-site.xml文件
f、配置mapreduce文件
cp mapred-site.xml.template mapred-site.xml
g、修改slaves,增加所有节点;
h、将hadoop及配置文件分发至其他两台机器上
rsync -av /usr/local/hadoop-2.7.6/ hadoop01:/usr/local/hadoop-2.7.6/ rsync -av /usr/local/hadoop-2.7.6/ hadoop02:/usr/local/hadoop-2.7.6/ rsync -av ~/.bash_profile hadoop01:~/.bash_profile rsync -av ~/.bash_profile hadoop02:~/.bash_profile
分发完之后source配置文件及创建临时文件夹
source ~/.bash_profile mkdir -p /data/hadoop/app/tmp/dfs/name mkdir -p /data/hadoop/app/tmp/dfs/data
5、启动及停止
hadoop格式化及启停 hdfs namenode-format start_all.sh stop_all.sh
三、hive安装
1、hive安装
a、下载镜像,使用wget下载,这里安装的是hive2.3.4;
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz
b、解压文件,将解压文件移至/usr/local目录下并重命名;
tar -zxvf apache-hive-2.3.4-bin.tar.gz mv apache-hive-2.3.4-bin /usr/local/apache-hive-2.3.4
c、配置hive环境变量,vi /etc/profile,如下配置
HIVE_HOME=/usr/local/apache-hive-2.3.4 HIVE_CONF_DIR=$HIVE_HOME/conf PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin export JAVA_HOME JRE_HOME PATH CLASSPATH HADOOP_HOME HIVE_HOME HIVE_CONF_DIR source /etc/profile
hadoop fs -mkdir -p /user/hive/warehouse hadoop fs -chmod -R 777 /user/hive/warehouse hadoop fs -mkdir -p /tmp/hive hadoop fs -chmod -R 777 /tmp/hive
e、修改hive-site.xml配置文件
e1、将所有的${system:java.io.tmpdir}替换成/usr/local/apache-hive-2.3.4/tmp e2、将所有的${system:user.name}替换成root e3、修改元数据库名称(javax.jdo.option.ConnectionDriverName) e4、修改元数据库链接(javax.jdo.option.ConnectionURL) e5、修改元数据库登陆名称(javax.jdo.option.ConnectionUserName) e6、修改元数据库登陆密码(javax.jdo.option.ConnectionPassword)
f、在mysql官网下载驱动包并上传至hive的lib目录下
cp /usr/local/src/mysql-connector-java-5.1.36.jar $HIVE_HOME/lib/
g、新建hive-env.sh文件并加载相应环境变量
cp hive-env.sh.template hive-env.sh #基于模板创建hive-env.sh vim hive-env.sh #编辑配置文件并加入以下配置: export HADOOP_HOME=/home/hadoop/hadoop-2.7.6 export HIVE_CONF_DIR=/usr/local/apache-hive-2.3.4/conf export HIVE_AUX_JARS_PATH=/usr/local/apache-hive-2.3.4/lib
2、配置mysql
a、选择最简单的方式安装
yum -y install mysql-server
b、设置开机启动
chkconfig mysqld on及启动mysql service mysqld start
c、使用root登陆并修改相应密码,这里值得注意的是这里的root及密码和hive-site.xml配置文件中保持一致;
3、初始化相应设置
a、初始化元数据库
schematool -initSchema -dbType mysql
b、执行hive进入,如果有ssl连接警告,在mysql连接后加上usessl=false
c、如果失败找找以上配置是否正确;
由于水平有限,请参照指正
https://zhuanlan.zhihu.com/mltech
https://zhuanlan.zhihu.com/p/51277041
以上是关于centos7 分布式集群hadoop与hive安装的主要内容,如果未能解决你的问题,请参考以下文章
Spark集群框架搭建VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive
CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装
基于Hadoop3.1.2集群的Hive3.1.2安装(有不少坑)