CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装相关的知识,希望对你有一定的参考价值。

1       VM网络配置... 3

2       CentOS配置... 5

2.1             下载地址... 5

2.2             激活网卡... 5

2.3             SecureCRT. 5

2.4             修改主机名... 6

2.5             yum代理上网... 7

2.6             安装ifconfig. 8

2.7             wget安装与代理... 8

2.8             安装VMware Tools. 8

2.9             其他... 9

2.9.1         问题... 9

2.9.2         设置... 9

2.9.2.1     去掉开机等待时间... 9

2.9.2.2    VM调整... 9

2.9.3         命令... 10

2.9.3.1     关机与重启... 10

2.9.3.2     服务停止与禁用... 10

2.9.3.3     查大文件目录... 11

2.9.3.4     查看磁盘使用情况... 11

2.9.3.5     查看内存使用情况... 12

3       安装JDK. 12

4       复制虚拟机... 12

5       SSH 免密码登录... 14

5.1             一般的ssh原理(需要密码)... 14

5.2             免密码原理... 14

5.3             SSH免密码... 14

6       HA+Federation服务器规划... 15

7       zookeeper. 16

7.1             超级权限... 17

7.2             问题... 17

8       Hadoop. 17

8.1             hadoop-env.sh. 17

8.2             hdfs-site.xml18

8.3             core-site.xml20

8.4             slaves. 20

8.5             yarn-env.sh. 21

8.6             mapred-site.xml21

8.7             yarn-site.xml21

8.8             复制与修改... 22

8.9             启动ZK. 23

8.10          格式化zkfc. 23

8.11          启动journalnode. 23

8.12          namenode格式化和启动... 24

8.13          启动zkfc. 26

8.14          启动datanode. 27

8.15          HDFS验证... 27

8.16          HA验证... 27

8.16.1       手动切换... 28

8.17          启动yarn. 28

8.18          MapReduce测试... 29

8.19          脚本... 29

8.19.1       启动与停用脚本... 29

8.19.2       重启、关机... 31

8.20          Eclipse插件... 31

8.20.1       插件安装... 31

8.20.2       WordCount工程... 32

8.20.2.1    WordCount.java. 33

8.20.2.2    yarn-default.xml34

8.20.2.3    build.xml34

8.20.2.4    log4j.properties. 35

8.20.3       打包执行... 35

8.20.4       权限访问... 36

8.21          杀任务... 36

8.22          日志... 36

8.22.1       Hadoop系统服务日志... 36

8.22.2       Mapreduce日志... 38

8.22.3       System.out. 41

8.22.4       log4j42

9       mysql. 44

10              HIVE安装... 46

10.1          三种安装模式... 46

10.2          远程模式安装... 47

11              Scala安装... 49

12              Spark安装... 49

12.1          测试... 50

12.2          Hive启动问题... 52

13              清理与压缩... 52

14              hadoop2.x常用端口... 53

15              Linux命令... 54

16              hadoop文件系统命令... 55

 


 

 

本文档主要记录了Hadoop+Hive+Spark集群安装过程,并且对NameNodeResourceManager进行了HA高可用配置,以及对NameNode的横向扩展(Federation联邦)

 

1       VM网络配置

将子网IP设置为192.168.1.0

将网关设置为192.168.1.2

并禁止DHCP

 

当经过上面配置后,虚拟网卡8IP会变成192.168.1.1

虚拟机与物理机不在一个网段是没有关系的

2                      CentOS配置

2.1       下载地址

http://mirrors.neusoft.edu.cn/centos/7/isos/x86_64/CentOS-7-x86_64-Minimal-1511.iso

下载不带桌面的最小安装版本

2.2       激活网卡

激活网卡,并设置相关IP

网关与DNS设置为上面虚拟网卡8中设置的网关即可

2.3       SecureCRT

当网卡激活后,就可以使用SecureCRT终端远程连接Linux,这样方便后续操作。如何连接这里省略,

这里连接上后简单的进行下面设置:

 

2.4       修改主机名

/etc/sysconfig/network

 

/etc/hostname

 

/etc/hosts

192.168.1.11   node1

192.168.1.12   node2

192.168.1.13   node3

192.168.1.14   node4

 

2.5       yum代理上网

由于公司内部是代理上网,所以yum无法连网搜索软件包

yum代理的设置:vi /etc/yum.conf

 

再次运行yum,发现可以连网搜索软件包了:

 

2.6       安装ifconfig

2.7       wget安装与代理

 

安装好wget后,在/etc目录下就会产生wget配置文件wgetrc,在这里面可以配置wget代理:

[root@node1 ~]# vi /etc/wgetrc

http_proxy = http://10.19.110.55:8080

https_proxy = http://10.19.110.55:8080

ftp_proxy = http://10.19.110.55:8080

2.8       安装VMware Tools

为了虚拟机与主机时间同步,所以需要安装VMWare Tools

 

[root@node1 opt]# yum -y install perl

[root@node1 ~]# mount /dev/cdrom /mnt

[root@node1 ~]# tar -zxvf /mnt/VMwareTools-9.6.1-1378637.tar.gz -C /root

[root@node1 ~]# umount /dev/cdrom

[root@node1 ~]# /root/vmware-tools-distrib/vmware-install.pl

[root@node1 ~]# rm -rf /root/vmware-tools-distrib

注:下面文件共享与鼠标拖放功能不要安装,否则安装过程会出问题:

[root@node1 ~]# chkconfig --list | grep vmware

vmware-tools    0:    1:    2:    3:    4:    5:    6:

vmware-tools-thinprint  0:    1:    2:    3:    4:    5:    6:

[root@node1 ~]# chkconfig vmware-tools-thinprint off

[root@node1 ~]# find / -name *vmware-tools-thinprint* | xargs rm -rf

 

2.9       其他

2.9.1  问题

刚启动时会出以下错误提示:

修改虚拟机配置文件node1.vmx可以解决:

vcpu.hotadd = "FALSE"

mem.hotadd = "FALSE"

 

2.9.2  设置

2.9.2.1去掉开机等待时间

[root@node1 ~]# vim /etc/default/grub

GRUB_TIMEOUT=0                                               #默认为5

 

[root@node1 ~]# grub2-mkconfig -o /boot/grub2/grub.cfg

2.9.2.2VM调整

注:小内存禁用

 

修改node1.vmx文件:

mainMem.useNamedFile = "FALSE"

 

 

为了全屏显示,方便命令行输入,做以下调整:

并去掉状态栏显示:

2.9.3  命令

2.9.3.1关机与重启

[root@node1 ~]# reboot

[root@node1 ~]# shutdown -h now

2.9.3.2服务停止与禁用

#查看开机自启动服务

[root@node1 ~]# systemctl list-unit-files | grep enabled | sort

auditd.service                               enabled

crond.service                               enabled

dbus-org.freedesktop.NetworkManager.service enabled

dbus-org.freedesktop.nm-dispatcher.service  enabled

default.target                              enabled

dm-event.socket                             enabled

getty@.service                              enabled

irqbalance.service                          enabled

lvm2-lvmetad.socket                         enabled

lvm2-lvmpolld.socket                        enabled

lvm2-monitor.service                        enabled

microcode.service                           enabled

multi-user.target                           enabled

NetworkManager-dispatcher.service           enabled

NetworkManager.service                      enabled

postfix.service                             enabled

remote-fs.target                            enabled

rsyslog.service                             enabled

sshd.service                                enabled

systemd-readahead-collect.service           enabled

systemd-readahead-drop.service              enabled

systemd-readahead-replay.service            enabled

tuned.service                               enabled

 

[root@node1 ~]#  systemctl | grep running | sort 

crond.service                   loaded active running   Command Scheduler

dbus.service                    loaded active running   D-Bus System Message Bus

dbus.socket                     loaded active running   D-Bus System Message Bus Socket

getty@tty1.service              loaded active running   Getty on tty1

irqbalance.service              loaded active running   irqbalance daemon

lvm2-lvmetad.service            loaded active running   LVM2 metadata daemon

lvm2-lvmetad.socket             loaded active running   LVM2 metadata daemon socket

NetworkManager.service          loaded active running   Network Manager

polkit.service                  loaded active running   Authorization Manager

postfix.service                 loaded active running   Postfix Mail Transport Agent

rsyslog.service                 loaded active running   System Logging Service

session-1.scope                 loaded active running   Sessi

以上是关于CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装的主要内容,如果未能解决你的问题,请参考以下文章

对Hadoop2.7.2文档的学习-Yarn部分RM Restart/RM HA/Timeline Server/NM Restart

Centos7+Mariadb+Keepalived实现Mariadb(MYSQL)的高可用(HA)

Corosync+pacemaker+DRBD+mysql(mariadb)实现高可用(ha)的mysql集群(centos7)

CentOS7.6搭建Hadoop2.7.2运行环境-三节点集群模式

CentOS7 Hadoop2.7.2完全分布式集群搭建

windows下运行hadoop2.7.2

(c)2006-2024 SYSTEM All Rights Reserved IT常识