CDH5上安装Hive,HBase,Impala,Spark等服务
Posted xfgnongmin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CDH5上安装Hive,HBase,Impala,Spark等服务相关的知识,希望对你有一定的参考价值。
Apache Hadoop的服务的部署比較繁琐。须要手工编辑配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。因为须要对Hive,HBase,Impala,Spark进行功能測试,就採用了Cloudera Manager方式进行安装。
Cloudera Manager提供两种软件包安装源,Package 和?Parcel:
Package就是一个个rpm文件。以yum的方式组织起来。
Parcel是rpm包的压缩格式。以.parcel结尾。全部的rpm压缩在一个文件里,方便下载和分发,使用manifest.json文件对parcel文件进行描写叙述,将parcel文件保存到局域网内的Webserver上,安装过程中就不须要从互联网上下载文件了。实现了离线安装。
一、安装前准备工作
安装Hive,HBase,Impala,Spark之前,Cloudera Manager应该已经安装好了,參见:本地Yum软件源安装Cloudera Manager 5?这篇文章。使用的操作系统为?CentOS-6.5-x86_64。CM版本号为 5.0.2 ,採用parcel包方式安装。
1、下载安装中须要的文件:
从?http://archive.cloudera.com/cdh5/parcels/5.0.2.13/ 下载例如以下的文件,保存到Webserver的?/var/www/html/cdh5/parcels/latest?文件夹?:
[[email protected] latest]# pwd
/var/www/html/cdh5/parcels/latest
[[email protected] latest]# ll
total 1793948
-rw-r--r-- 1 root root 1836961055 Jun 15 06:51 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcel
-rw-r--r-- 1 root root 33190 Jun 15 09:04 manifest.json
从?http://archive-primary.cloudera.com/redhat/cdh/ 下载:RPM-GPG-KEY-cloudera,这是对rpm包进行校验的文件,保存到Webserver的?/var/www/html/redhat/cdh 文件夹:
[[email protected] cdh]# pwd
/var/www/html/redhat/cdh
[[email protected] cdh]# ll
total 4
-rw-r--r-- 1 root root 1690 Jun 16 07:32 RPM-GPG-KEY-cloudera
[[email protected] cdh]#?
2、准备安装的server
測试环境一共使用了六台server,列表例如以下:
ip地址 | hostname | 描写叙述信息 |
---|---|---|
172.16.230.140 | archive.cloudera.com | 本地webserver |
172.16.230.141 | cm.worker.com | CM,管理节点 |
172.16.230.151 | h1.worker.com | 节点1 |
172.16.230.152 | h2.worker.com | 节点2 |
172.16.230.153 | h3.worker.com | 节点3 |
172.16.230.154 | h4.worker.com | 节点4 |
全部的server上安装CentOS-6.5-x86_64,并关闭防火墙、selinux、保持时间一致。
保持全部的root用户password一致。一个Hadoop集群中的节点最少为三台,本測试环境的节点为四台,上面的ip地址须要依据自已的网络情况进行调整,这是我搭建的虚拟机的IP。
3、在webserver上公布CentOS-6.5-x86_64安装盘文件
安装过程中,须要从CentOS-6.5-x86_64安装盘上读取一些rpm包,须要将安装盘公布为本地yum源。将安装盘挂载到webserver,并加入软连接到web文件夹。webserver上的web根文件夹例如以下:
[[email protected] html]# pwd
/var/www/html
[[email protected] html]# ll
total 12
drwxr-xr-x 3 root root 4096 Jun 15 06:48 cdh5
lrwxrwxrwx 1 root root 24 Jun 20 08:12 centos_media -> /media/CentOS_6.5_Final/
drwxr-xr-x 3 root root 4096 Jun 14 10:04 cm5
drwxr-xr-x 3 root root 4096 Jun 16 07:29 redhat
4、创建 hosts 和 yum配置文件
创建hosts文件,保存到全部server的 /etc/hosts ,内容例如以下:
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
172.16.230.140 archive.cloudera.com
172.16.230.141 cm.worker.com
172.16.230.151 h1.worker.com
172.16.230.152 h2.worker.com
172.16.230.153 h3.worker.com
172.16.230.154 h4.worker.com
创建?myrepo.repo 文件,保存到全部server的?/etc/yum.repos.d 文件夹。内容例如以下:
[myrepo]
name=myrepo
baseurl=http://172.16.230.140/cm5/redhat/6/x86_64/cm/5/
enabled=1
gpgcheck=0
创建?CentOS-Media.repo 文件,保存到全部server的?/etc/yum.repos.d 文件夹。内容例如以下:
[c6-media]
name=CentOS-$releasever - Media
baseurl=http://172.16.230.140/centos_media
gpgcheck=0
enabled=1
exclude = jdk*
注意,?/etc/yum.repos.d 文件夹。仅存在 ?myrepo.repo 和 ?CentOS-Media.repo ?两个文件.
5、cm.worker.com 上安装 PostgreSQL
Hive须要使用一个关系数据库作为Metastore数据库,使用嵌入式数据库存在性能问题,须要在cm.worker.com 上安装一个PostgreSQL数据库。创建用户hiveuser。创建数据库 hivedb,指定数据库拥有者为hiveuser,具体过程能够參见这篇文章:PostgreSQL入门教程
二、图解Hive,HBase,Impala,Spark 的安装和配置
做了上面的准备工作后,登录CM5就能够開始安装了,安装过程大部分情况下都不须要改动默认值。须要改动的地方会以文字说明,以下是安装过程的截图。
1、登录CM5
2、选择Cloudera Express
3、可供选择的安装包列表
4、为CDH集群指定主机
输入?172.16.230.[151-154] ,依据自已网络情况进行调整,然后点击搜索。
5、进入加入主机向导
使用parcel安装方式,parcel下载路径不用改动,已经公布在本地webserver中了。
不须要java加密。保留默认值:
输入root的password,全部节点的rootpassword是一致的。
同一时候安装的数据默觉得10。考虑到是虚拟机,改动为2。假设是真实server。请保留默认值为10.
进行节点CM管理程序安装,假设出现故障,请检查hostname与ip地址配置是否正确。
下载和分配parcel包,因为parcel包有1.8G大小,运行时间较长,能够喝杯咖啡再回来。
主机安装完毕:会对主机进行检查。有个?swappness 须要调整,假设是真实server,请将?swappness改动为0。尽量不使用交换分区。
6、进入加入服务向导:
选饿全部服务
保持默认的节点角色配置:
选择自己定义数据库,填写连接信息。并点击測试连接button:
加入服务的具体配置,保留默认值:
首次启动服务的时间比較长,大概二十分钟:
加入服务完毕:
点击完毕后,就进入了CM管理的首页了。
7、进入CM首页
三、小结
本文描写叙述的hadoop安装方式是一种离线方式,通过CM5加快了环境搭建的速度,CM5将hadoop集群管理的复杂度大大减少。后面在測试中学习hadoop集群的调优。
原创作品,转载请注明出处:http://blog.csdn.net/yangzhaohui168/article/details/33403555
以上是关于CDH5上安装Hive,HBase,Impala,Spark等服务的主要内容,如果未能解决你的问题,请参考以下文章
cdh版本的hue安装配置部署以及集成hadoop hbase hive mysql等权威指南