centos7 分布式集群hadoop与hive安装

Posted 机器学习模型与Python入门

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了centos7 分布式集群hadoop与hive安装相关的知识,希望对你有一定的参考价值。

一、安装环境及版本号

配置:1核2G腾讯云服务器 系统:centos7.2 数量:3台 hadoop版本:2.7.6 hive版本:2.3.4

仅用于熟悉hadoop集群及hive的安装,仅适用于小小小型数据集的测试,希望对环境不熟悉的朋友有帮助;


二、hadoop安装

1、配置IP

在每台服务器中的 /etc/hosts增加ip,腾讯云服务器实验使用公网,如

132.232.15.xxx hadoop00 132.232.42.xxx hadoop01 132.232.42.xxx hadoop02

其中hadoop00作为NameNode、DataNode、ResourceManager、NodeManager,

hadoop01作为DataNode、NodeManager


2、配置ssh免密登陆

a、生成密钥:ssh-keygen -t rsa

b、拷贝公钥至其他服务器(每台服务器需要执行)

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop00 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop02

测试 ssh hadoop00是否可以免密登陆

[root@VM_0_2_centos ~]# ssh hadoop01 Last login: Wed Nov 28 21:30:33 2018 from 116.228.30.6

3、安装JDK

a、下载jdk1.8 使用linux自带命令

wget https://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz?AuthParam=1543414359_fa12a8fd64583cfe3dbb6b834a3206af

b、解压

tar -zxvf jdk-8u131-linux-x64.tar.gz

c、移动文件至/usr/local/jdk下

mv ./jdk1.8.0_131 /usr/local/jdk1.8

d、增加环境变量

JAVA_HOME=/usr/local/jdk1.8/ JAVA_BIN=/usr/local/jdk1.8/bin JRE_HOME=/usr/local/jdk1.8/jre PATH=$PATH:/usr/local/jdk1.8/bin:/usr/local/jdk1.8/jre/bin CLASSPATH=/usr/local/jdk1.8/jre/lib:/usr/local/jdk1.8/lib:/usr/local/jdk1.8/jre/lib/charsets.jar export PATH=$PATH:/usr/local/mysql/bin/ source /etc/profile

e、通过rsync命令将jdk及配置同步至其他机器

scp -r jdk1.8  root@hadoop02:/usr/local/ 或者 rsync -av /usr/local/jdk1.8 hadoop01:/usr/local rsync -av /usr/local/jdk1.8 hadoop02:/usr/local rsync -av /etc/profile hadoop01:/etc/profile rsync -av /etc/profile hadoop02:/etc/profile

完成之后检查其他服务器是否安装成功


4、Hadoop下载及安装

a、下载hadoop安装包

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/

b、编辑配置文件及配置JAVA_HOME环境

进入hadoop-2.7.6/etc/hadoop下 在hadoop-env.sh增加JAVA_HOME环境 export JAVA_HOME=/usr/local/jdk1.8/ 在系统环境中bash_profile增加hadoop环境 export HADOOP_HOME=/usr/local/hadoop-2.7.6 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

c、分别编辑core-site.xml和hdfs-site.xml文件,配置文件可网上查找

d、增加配置相应的临时文件夹

e、配置yarn-site.xml文件

f、配置mapreduce文件

cp mapred-site.xml.template mapred-site.xml

g、修改slaves,增加所有节点;

h、将hadoop及配置文件分发至其他两台机器上

rsync -av /usr/local/hadoop-2.7.6/ hadoop01:/usr/local/hadoop-2.7.6/ rsync -av /usr/local/hadoop-2.7.6/ hadoop02:/usr/local/hadoop-2.7.6/ rsync -av ~/.bash_profile hadoop01:~/.bash_profile rsync -av ~/.bash_profile hadoop02:~/.bash_profile


分发完之后source配置文件及创建临时文件夹

source ~/.bash_profile mkdir -p /data/hadoop/app/tmp/dfs/name mkdir -p /data/hadoop/app/tmp/dfs/data

5、启动及停止

hadoop格式化及启停 hdfs namenode-format start_all.sh stop_all.sh


三、hive安装

1、hive安装

a、下载镜像,使用wget下载,这里安装的是hive2.3.4;

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz


b、解压文件,将解压文件移至/usr/local目录下并重命名;

tar -zxvf apache-hive-2.3.4-bin.tar.gz mv apache-hive-2.3.4-bin /usr/local/apache-hive-2.3.4

c、配置hive环境变量,vi /etc/profile,如下配置

HIVE_HOME=/usr/local/apache-hive-2.3.4 HIVE_CONF_DIR=$HIVE_HOME/conf PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin export JAVA_HOME JRE_HOME PATH CLASSPATH HADOOP_HOME  HIVE_HOME HIVE_CONF_DIR source /etc/profile

hadoop fs -mkdir -p  /user/hive/warehouse hadoop fs -chmod -R 777 /user/hive/warehouse hadoop fs -mkdir -p /tmp/hive hadoop fs -chmod -R 777 /tmp/hive

e、修改hive-site.xml配置文件

e1、将所有的${system:java.io.tmpdir}替换成/usr/local/apache-hive-2.3.4/tmp e2、将所有的${system:user.name}替换成root e3、修改元数据库名称(javax.jdo.option.ConnectionDriverName) e4、修改元数据库链接(javax.jdo.option.ConnectionURL) e5、修改元数据库登陆名称(javax.jdo.option.ConnectionUserName) e6、修改元数据库登陆密码(javax.jdo.option.ConnectionPassword)

f、在mysql官网下载驱动包并上传至hive的lib目录下

cp /usr/local/src/mysql-connector-java-5.1.36.jar $HIVE_HOME/lib/

g、新建hive-env.sh文件并加载相应环境变量

cp hive-env.sh.template hive-env.sh #基于模板创建hive-env.sh vim hive-env.sh #编辑配置文件并加入以下配置: export HADOOP_HOME=/home/hadoop/hadoop-2.7.6 export HIVE_CONF_DIR=/usr/local/apache-hive-2.3.4/conf export HIVE_AUX_JARS_PATH=/usr/local/apache-hive-2.3.4/lib

2、配置mysql

a、选择最简单的方式安装

yum -y install mysql-server

b、设置开机启动

chkconfig mysqld on及启动mysql service mysqld start

c、使用root登陆并修改相应密码,这里值得注意的是这里的root及密码和hive-site.xml配置文件中保持一致;


3、初始化相应设置

a、初始化元数据库

schematool -initSchema -dbType mysql

b、执行hive进入,如果有ssl连接警告,在mysql连接后加上usessl=false

c、如果失败找找以上配置是否正确;



由于水平有限,请参照指正



https://zhuanlan.zhihu.com/mltech

https://zhuanlan.zhihu.com/p/51277041






以上是关于centos7 分布式集群hadoop与hive安装的主要内容,如果未能解决你的问题,请参考以下文章

Spark集群框架搭建VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

基于Centos7.8的Hive安装

基于Hadoop3.1.2集群的Hive3.1.2安装(有不少坑)

基于CentOS7的Hadoop3.1.2完全分布式集群部署记录

基于CentOS7的Hadoop3.1.2完全分布式集群部署记录