keepalive和脑裂问题

Posted 2020-10-17 跪着行走的boY

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了keepalive和脑裂问题相关的知识，希望对你有一定的参考价值。

keepalive

keepalive起初专门为lvs负载均衡软件设计的，用来管理监控lvs集群系统中各个服务节点的状态，后来又加入了可以实现高可用的vrrp功能。

keepalive软件通过vrrp协议实现高可用功能的。VRRP（虚拟路由器冗余协议）目的就是为了解决静态路由单点故障问题，竞选机制来将路由的任务交给某台VRRP路由器的，保证节点宕机，整个网络可以不间断的运行

　　Keepalived可以实现任意两台主机之间，例如Master和Backup主机之间的故障转移和自动切换，这个主机可以是普通的不能停机的业务服务器，也可以是LVS负载均衡、nginx反向代理这样的服务器。

Keepalived高可用简单原理

　　master端的vrrp路由器会一直发送vrrp广播包，buckup会一直收到广播包，buckup不会抢占master资源，在backup上会一直监听，一旦收不到master的包，在多台backup中优先级最高的就会抢占为master

keepalive服务的三个重要功能

　　1、管理LVS负载均衡软件

　　2、实现对LVS集群节点健康检查功能

　　3、作为系统网络服务的高可用功能

1、keepalive的配置文件

! Configuration File for keepalived
global_defs {                                     　　　　　　　  #全局定义
   notification_email {                      　　　　　　　　#出问题了收件人
       [email protected]
       [email protected]
       [email protected]
   }
   notification_email_from [email protected]        #发件人
   smtp_server 192.168.200.1            　　　　　　　 #发件服务器地址
   smtp_connect_timeout 30              　　　　　　　#超时时间
   router_id LVS_DEVEL                　　　　　　　　   #唯一标识，不同机器不能一样
}

vrrp_instance VI_1 {           　　　　　　　　　　　　#vrrp实例，名字可以自定义，与前面关键字空格隔开
    state MASTER                            　　　　　　　　 #标识是主还是备，一定要大写
    interface eth0                              　　　　　　　　#默认的通信的接口，当vip不指定时，默认绑定它
    virtual_router_id 51                     　　　　　　　　#实例的ID（主备必须一样，同一文件唯一，0-255）
    priority 100                               　　　　　　　　  #真正确定谁优先地方，数字越大，级别越高，越先获取资源，建议隔50
    advert_int 1                                　　　　　　　　 #心跳间隔
    authentication {                           　　　　　　　　#实例认证，主备一样
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {                      #VIP地址
        192.168.200.16
        192.168.200.18/24 dev eth0 label eth0:1
    }
}

2、keepalive+nginx双主实战

2.1、nginx配置

在实际工作中有三个域名

www.etiantian.org

blog.etiantian.org

bbs.etiantian.org

它们的访问量都很大，可以配置不同的ip来结合keepalived进行负载，先用两个域名来测试：

10.0.0.3 www.etiantian.org

10.0.0.4 blog.etiantian.org

目地：在初始阶段,两不不同域名的服务跑在不同的机器上，（实际是互为主备的配置）

lb1:
10.0.0.3 www.etiantian.org
lb2:
10.0.0.4 blog.etiantian.org

keepaived沿用上面互为主备的配置

以下是nginx的配置（分别在两台lb上做）

所需要做的就是监听ip

 [[email protected] conf]# cat nginx.conf
worker_processes  1;
events {
    worker_connections  1024;
}
http {
    include       mime.types;
    default_type  application/octet-stream;
    sendfile        on;
    keepalive_timeout  65;
    upstream backend {
           server 172.16.1.8:80  weight=1;
           server 172.16.1.7:80  weight=1;
           check interval=3000 rise=2 fall=5 timeout=1000 type=http;
    }
    server {
        listen      10.0.0.3:80;   #这里要监听ip
        server_name  blog.etiantian.org;
        location / {
            proxy_pass http://backend;   #这加一定要加这个抛的字段，否则访问就访问成负载的主页了
            include proxy.conf;
        }
        location /status {
            check_status;
            access_log off;
        }
    }
    server {
        listen      10.0.0.4:80;
        server_name  blog.etiantian.org;
        location / {
           proxy_pass http://backend;
           include proxy.conf;
        }
        location /status {
            check_status;
            access_log off;
        }
    }
}

2.2、keepalive配置文件

LB01：

[[email protected] ~]# cat /etc/keepalived/keepalived.conf
global_defs {
   notification_email {
   490238852@qq.com
 }
   notification_email_from 490238852@qq.com
   smtp_server 192.168.200.1
   smtp_connect_timeout 30
   router_id LVS_lb01
}
vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 150
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
             10.0.0.3/24 dev eth0 label eth0:1 
      }
}
vrrp_instance VI_2 {
    state BACKUP
    interface eth0
    virtual_router_id 52
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
             10.0.0.4/24 dev eth0 label eth0:2
      }
}

LB02：

[[email protected] ~]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalived
global_defs {
   notification_email {
        490238852@qq.com  
}
   notification_email_from 490238852@qq.com
   smtp_server 192.168.200.1
   smtp_connect_timeout 30
   router_id LVS_lb02
}
vrrp_instance VI_1 {
    state BACKUP
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
       10.0.0.3/24 dev eth0 label eth0:1
    }
}
vrrp_instance VI_2 {
    state MASTER
    interface eth0
    virtual_router_id 52
    priority 150
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
       10.0.0.4/24 dev eth0 label eth0:2
    }
}

3、脑裂原因

一般来说脑裂问题有以下这几种原因：

高可用服务器对之间心跳线链路发生故障，导致无法正常通信

心跳线坏了（包括断了，老化）、

网卡及相关驱动坏了，IP配置及冲突问题（网卡直连）

心跳线之间的设备故障（网卡及交换机）、

仲裁的机器出现问题（才用仲裁的方案）

高可用服务器上开启了iptables防火墙，阻止了心跳传消息输
高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败
其他服务配置不当的原因，如心跳方式不同，心跳广播冲突，软件bug等

提示keepalive配置里同一VRRP实例如果virtual_router_id两端参数配置不一致，也会导致脑裂问题

4、脑裂方案

在实际生产环境中，我们从以下方面防止脑裂：

同时使用串行电缆和以太网电缆连接、同时使用两条心跳线路，这样一条线路断了，另外一条还是好的，依然能传送心跳消息
当检查脑裂时强行关闭一个心跳节点（这个功能需要特殊设备支持，如stonith、fence）相当于备节点接收不到心跳消息，通过单独的线路发送关机命令关闭主节点的电源
做好对脑裂的监控报警

解决常见方案：

如果开启防火墙，一定要让心跳消息通过，一般通过允许IP段的形式解决
可以拉一条以太网网线或者串口线作为主被节点心跳线路的冗余
开发检测程序通过监控软件检测脑裂

5、nginx配置文件监听的网卡上不存在IP地址问题

报错：

[[email protected] conf]# /application/nginx/sbin/nginx -t

nginx: the configuration file /application/nginx-1.6.3/conf/nginx.conf syntax is ok
nginx: [emerg] bind() to 10.0.0.4:80 failed (99: Cannot assign requested address)
nginx: configuration file /application/nginx-1.6.3/conf/nginx.conf test failed

配置好后，出现无法绑定ip10.0.0.4：80，这是由于本地没有这个ip造成的，而这个ip是需要keepalived来生的，这样就无法进行配置nginx。

解决方法：

echo ‘net.ipv4.ip_nonlocal_bind = 1‘ >> /etc/sysctl.conf
sysctl -p #生效

通过这个命令，系统就允许配置一个当前不存在的辅助ip

[[email protected] ~]# /application/nginx/sbin/nginx -s stop   #平滑重启没用，要关掉重启
[[email protected] ~]# /application/nginx/sbin/nginx
[[email protected] ~]# netstat -ntpl|grep nginx
tcp        0      0 10.0.0.4:80                 0.0.0.0:*                   LISTEN      7431/nginx         
tcp        0      0 10.0.0.3:80                 0.0.0.0:*                   LISTEN      7431/nginx

用来访问的机器上做解析访问检查

vim /etc/hosts

10.0.0.3 www.etiantian.org

10.0.0.4 blog.etiantian.org

用户在进行访问体验是没有什么不同的，web服务器也没有一点变动，只是实现了负载均衡器流量的分流，

这样做的好处是平均负载的压力，但是注意的是负载的能力，因为当其中一台宕机了，另一台马上起另一个vip接管资源，压力太大就是雪崩。

6、开发监听脑裂的脚本

keepalived是服务器级别的，只监控服务器，nginx宕机了，是没有办法接管的

cat /server/scripts/check_nginx_by_keep.sh
#!/bin/sh
while true
do
 if [ `netstat -lntup|grep nginx|wc -l` -ne 1 ];then
    /etc/init.d/keepalived stop
 fi
  sleep 5
done

当负载器上出现nginxr的监听ip大于1时（或写做-eq 0 ，即等于0时），就杀掉keepalived进程，这样来实现web服务如nginx挂掉接管资源

7、指定日志输出文件

1、/etc/sysconfig/keepalived
修改为　　KEEPALIVED_OPTIONS="-D -d -S 0"

2、/etc/rsyslog.conf

修改为　　*.info;mail.none;authpriv.none;cron.none;local0.none /var/log/messages
最后加　　local0.* /var/log/keepalived.log
3、重启
/etc/init.d/rsyslog restart
/etc/init.d/keepalived restart

以上是关于keepalive和脑裂问题的主要内容，如果未能解决你的问题，请参考以下文章

请问linux的LVS是如何防止脑裂的？

RabbitMQ脑裂

keepalived脑裂现象

解决Lvs+keepalived出现双VIP，即脑裂现象

Oracle RAC 脑裂

怎样通过日志分析rac各种脑裂发生的原因