高可用(HA)集群

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了高可用(HA)集群相关的知识,希望对你有一定的参考价值。

1、HA集群介绍

HA即(high available)高可用,又被叫做双机热备,用于关键性业务。可以这样理解,有两台机器A和B,正常情况下,A提供服务,B待命闲置,当A宕机或服务宕掉,会切换至B机继续提供该服务。常用实现高可用的开源软件有heartbeat和keepalived,其中keepalived有负载均衡的功能。

技术分享

如图所示为一个HA架构,一个交换机下面有两台机器Web1和Web2,其中Web1为主节点,正常使它提供服务,而Web2备用节点是闲置的。Web1和Web2中间有一根心跳线,检查对方的存活状态。流动IP,也叫vip是对外提供服务的ip,正常情况下配置在Web1上,当Web1宕机后,Web2会自动配置该vip,对外提供服务。


2、前期准备

准备两台机器,一个使用了centos6.5,另一个centos6.3,系统版本不同不影响实验

网卡eth0 ip如下

master 192.168.1.165

slave 192.168.1.163

下面操作在两个机器上都要操作:

(1)设置hostname,分别为主master和从slave

主上设置:

# hostname  master

# vim /etc/sysconfig/network

HOSTNAME=localhost.localdomain

修改为

HOSTNAME=master

从上设置

# hostname  slave

# vim /etc/sysconfig/network

HOSTNAME=localhost.localdomain

修改为

HOSTNAME=slave

(2)关闭防火墙,主从都操作

# iptables -F

# service iptables save

# getenforce 0

# vim /etc/selinux/config

SELINUX=enforcing

修改为

SELINUX=disabled

(3)配置host,主从操作一样

# vim  /etc/host

192.168.1.165 master

192.168.1.163 slave


3、heartbeat安装

主机和从机都需要安装heartbeat,同时需要libnet,主机从机执行同样的命令

# yum install -y heartbeat

# yum install -y libnet

如果没有包,则需要安装一个扩展yum源,heartbeat在epel源中。

# yum install -y epel-release


4、主节点配置

需要先将3个相关的配置文件放置在heartbeat的配置目录下

# cd /usr/share/doc/heartbeat-3.0.4/

# cp authkeys ha.cf haresources /etc/ha.d/

之后便可以开始修改配置文件了,先修改验证文件

# cd /etc/ha.d/

# vim authkeys # 用来验证,主从通过通信验证对方是否存活,需要加密

auth 3 # 此处打开,数字表示选择哪种加密方式

#1 crc # 最简单

#2 sha1 HI! # 最复杂

3 md5 Hello! # 处于中间等级的加密方式

# chmod 600 /etc/ha.d/authkeys

# 如果不修改权限,heartbeat启动不了

第二个配置haresources文件,只需要编辑一行。因为当前在ha.d目录下,直接vim。如果不是,用绝对路径或者cd

# vim haresources

#node1  10.0.0.170  Filesystem::/dev/sda1::/data1::ext2

#找到上面一行,改成下面,需要去掉#

master  192.168.1.186/24/eth0:0 nginx

# master是主的主机名;192.168.1.186是vip,/24指定网段,网卡eth0:0(这里采用了虚拟网卡);nginx提供服务,如果主宕掉,从启动。

最后一个配置ha.cf,里边基本全是注释,这里选择删掉重新写入,当前依旧在/etc/ha.d目录下

# > ha.cf

# vim ha.cf

debugfile /var/log/ha-debug

logfile /var/log/ha-log

logfacility     local0

keepalive 2

deadtime 30

warntime 10

initdead 60

udpport 694

ucast eth0 192.168.1.163

auto_failback on

node    master

node    slave

ping 192.168.1.1

respawn hacluster /usr/lib/heartbeat/ipfail

配置说明:

debugfile /var/log/ha-debug:该文件保存heartbeat的调试信息

logfile /var/log/ha-log:heartbeat的日志文件

logfacility     local0 :日志级别

keepalive 2:心跳的时间间隔,默认单位秒

deadtime 30:超出该时间未收到对方节点的心跳,则认为对方死亡

warntime 10:超出该时间未收到对方节点的心跳,则发出警告并记录到日志

initdead 60:在某些系统上,系统启动或重启之后需要经过一段时间网络才能正常工作,该选项用于解决这种情况产生的时间间隔。最少为deadtime的两倍

udpport 694:设置广播通信使用的端口,694为默认端口号

ucast eth0 192.168.1.163:ucast指定对方ip,bcast形式寻找;eth0心跳检测自己的网卡,ip对方的ip

auto_failback on:heartbeat的两台主机分别为主节点和从节点。主节点正常情况下占用资源运行所有服务,遇到故障把资源交给从节点由从节点运行服务。选项为on情况下,一旦主节点恢复运行,则自动获取资源并取代从节点运行服务。

node    master:指定主

node    slave:指定从

ping 192.168.1.1

respawn hacluster /usr/lib/heartbeat/ipfail:指定与heartbeat一同启动和关闭的进程,该进程被自动监视,遇到故障则重新启动。最常用的进程是ipfail,该进程用于检测和处理网络故障,需要配合ping语句指定的pingnode来检测网络连接。如果系统是64位,将地址中的lib改为lib64

然后安装一个nginx,用于后边测试

# yum install -y nginx


5、从节点配置

把主上的三个配置拷贝到从上,使用scp命令;并且只需要在从上修改ha.cf文件一个地方即可

# scp authkeys ha.cf haresources slave:/etc/ha.d/

# vim /etc/ha.d/ha.cf

ucast eth0 192.168.1.163改为ucast eth0 192.168.1.165

也安装一个nginx,用于后边测试

# yum install -y nginx


6、heartbeat测试

启动heartbeat,顺序很重要,先主后从

# service heartbeat start

检查测试(主),第一次会需要等待一段时间,耐心

# ifconfig

看是否有eth0:0

# ps aux | grep nginx

看是否有nginx进程

测试(1)

因为主从指间的心跳实质是通过ping来连通,so主故意禁掉ping,死掉

# iptables -D INPUT -p icmp -j DROP

如果失败,查看日志发现卡在这里不动

Dec 08 18:56:53 master heartbeat: [9590]: WARN: node 192.168.1.1: is dead

Dec 08 18:56:53 master heartbeat: [9590]: info: Link 192.168.1.1:192.168.1.1 dead.

Dec 08 18:56:53 master ipfail: [9619]: info: Status update: Node 192.168.1.1 now has status dead

harc(default)[10097]: 2016/12/08_18:56:53 info: Running /etc/ha.d//rc.d/status status

Dec 08 18:56:54 master ipfail: [9619]: info: NS: We are dead. :<

Dec 08 18:56:54 master ipfail: [9619]: info: Link Status update: Link 192.168.1.1/192.168.1.1 now has status dead

Dec 08 18:56:55 master ipfail: [9619]: info: We are dead. :<

Dec 08 18:56:55 master ipfail: [9619]: info: Asking other side for ping node count.

尝试解决方法

将从上的ha.cf配置文件中的ucast修改如下

bcast  eth0

然后重新测试


测试(2)

主停止heartbeat服务

# service heartbeat stop


测试(3):测试脑裂

主和从上都down掉eth0

# ifdown eth0



本文出自 “Liew” 博客,谢绝转载!

以上是关于高可用(HA)集群的主要内容,如果未能解决你的问题,请参考以下文章

高可用集群HA(heartbeat)

HA高可用集群

HA Cluster基础概念及实现高可用集群

HA集群安装配置(高可用)

HDFS HA之手动高可用故障转移配置自动高可用故障转移配置配置YARN-HA集群

高可用集群HA之双机集群