KeepAlived：vrrp实例故障转移(keepalived+haproxy)

Posted 2020-10-27 骏马金龙

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了KeepAlived：vrrp实例故障转移(keepalived+haproxy)相关的知识，希望对你有一定的参考价值。

keepalived使用脚本进行健康检查时的相关配置项。例如keepalived+haproxy实现haproxy的高可用。

keepalived分为vrrp实例的心跳检查和后端服务的健康检查。如果要配置后端服务，则后端服务只能是LVS。但vrrp能独立于lvs存在，例如keepalive结合haproxy、mysql等服务实现它们的高可用。

vrrp实例的心跳检查(lvs,haproxy,mysql...)
- (1).除了LVS，vrrp只能通过脚本来实现vrrp的健康检查，并通过vrrp实例脚本结束keepalived进程来中断该实例的心跳通告。此时virtual server部分的配置需省略。
- (2).对于LVS，无需使用任何脚本，因为所有keepalived节点会同时对后端服务进行健康检查，并同时从LVS规则中剔除下线的服务。如果所有后端服务都不健康，那就没有必要切换keepalived。
后端RS的健康检查(只能是LVS)
- (1).一般采用TCP_CHECK、HTTP_GET、SSL_GET进行健康检查。
- (2).但也能自写脚本进行后端服务的健康检查，这种模式称为MISC_CHECK。

以下是从man keepalived中截取的通过脚本进行心跳检查、健康检查时的相关配置选项。man介绍的比较简单，更详细的配置说明可参考：https://github.com/acassen/keepalived/blob/master/doc/keepalived.conf.SYNOPSIS

VRRP script(s)
    # 定义一个vrrp脚本，后续vrrp组或vrrp实例要执行某脚本时，需要从此处引用
    # 注意，所有vrrp实例都会监控脚本的退出状态码
    vrrp_script <SCRIPT_NAME> {
       script <STRING>|<QUOTED-STRING> # 要执行的命令或脚本路径
       interval <INTEGER>              # 脚本调用时间间隔，默认1秒
       timeout <INTEGER>               # 脚本执行等待超时时长，超过该时长，表示脚本执行失败
       weight <INTEGER:-254..254>      # 根据该权重值调整vrrp实例优先级值，默认值为0
       rise <INTEGER>                  # 需要成功多少次，vrrp才进行角色状态切换(从fault切换为正常)
       fall <INTEGER>                  # 需要失败多少次，vrrp才进行角色状态切换(从正常切换为fault)
       user USERNAME [GROUPNAME]       # 脚本执行身份，group默认同username
       init_fail                       # 假定脚本初始化时就处于失败状态
    }

VRRP synchronization group(s)
    # 分别表示切换为主/备/出错(例如监控的eth0坏了)时所执行的脚本。
    # 要为脚本传递参数时，使用引号包围整个脚本和参数
    notify_master /path/to_master.sh [username [groupname]]
    notify_backup /path/to_backup.sh [username [groupname]]
    notify_fault "/path/fault.sh VG_1" [username [groupname]]

    # notify表示只要状态切换都会调用的脚本，且该脚本是在以上三个脚本执行之后再调用的，
    # keepalived会自动传递四个参数，因此不要手动为脚本传递参数。
    # $1 = "GROUP"|"INSTANCE"
    # $2 = vrrp组名称或vrrp实例名
    # $3 = 切换的目标状态(MASTER/BACKUP/FAULT)
    # $4 = 优先级数值(priority value)
    notify /path/notify.sh [username [groupname]]


VRRP instance(s)部分

    # 监控接口，当某接口down掉时，切换为fault状态
    track_interface {
      eth0
      eth1
      eth2 weight <-254..254>
      ...
    }

    # 监控脚本，即执行vrrp_script定义的脚本
    track_script {
        <SCRIPT_NAME>
        <SCRIPT_NAME> weight <-254..254>
    }

    # notify_master/backup/fault/stop分别表示切换为主、备、出错(例如监控的eth0坏了)、vrrp停止时所执行的脚本
    # 要为脚本传递参数时，使用引号包围整个脚本和参数
    notify_master <STRING>|<QUOTED-STRING> [username [groupname]]
    notify_backup <STRING>|<QUOTED-STRING> [username [groupname]]
    notify_fault <STRING>|<QUOTED-STRING> [username [groupname]]
    notify_stop <STRING>|<QUOTED-STRING> [username [groupname]]   # executed when stopping vrrp

    # notify表示只要状态切换都会调用的脚本，并且该脚本是在以上三个脚本执行之后再调用的
    notify <STRING>|<QUOTED-STRING> [username [groupname]]



Virtual server(s)部分

    # 投票被选举成功或失败时执行的脚本
    quorum_up <STRING>|<QUOTED-STRING>
    quorum_down <STRING>|<QUOTED-STRING>

    real_server <IPADDR> <PORT>
       {
           # 当健康检查的后端rs上线、下线时执行的脚本
           notify_up <STRING>|<QUOTED-STRING>
           notify_down <STRING>|<QUOTED-STRING>

           # MISC健康检查类型，该类型通过自定义脚本来检查后端健康状况
           MISC_CHECK
           {
               # 执行哪个脚本来判断后端是否健康
               misc_path <STRING>|<QUOTED-STRING>
               # Script execution timeout
               misc_timeout <INT>

               # 指定一个随机延迟时间，防止同时检查所有后端，指定为0时表示禁止该功能。
               # 默认启动该功能，默认最大间隔为delay_loop的值。
               warmup <INT>

               # 如果指定该选项，则根据健康检查脚本的退出状态码动态调整权重值
               # 退出状态码为：
               # 0：表示检查成功，不做任何权重修改
               # 1：表示检查失败
               # 2-255：表示检查成功，但权重值减2，例如(状态码为255，则设置权重为253)
               misc_dynamic

               # 指定运行后端健康检查脚本的身份，不指定group时将默认使用username
               user USERNAME [GROUPNAME]
           }
       }
    }

例如，在keepalived+haproxy时。

vrrp_script check_haproxy {
        script"/etc/keepalived/chk_haproxy.sh"
        interval 2
        weight 2
    }

global_defs {
        router_id haproxy1
    }

vrrp_instanceVI_1 {
        state MASTER
        interface eth0
        virtual_router_id 150
        priority 50
        advert_int 1
        authentication {
            auth_type PASS
            auth_pass 1111
        }

virtual_ipaddress{
        192.168.1.201
    }
track_script {
        check_haproxy
    }
}

其中check_haproxy的脚本/etc/keepalived/chk_haproxy.sh内容如下：

#!/bin/bash

if ! killall -0 haproxy &>/dev/null;then
    serivce haproxy restart
    sleep 1
    if ! killall -0 haproxy &>/dev/null;then
        service keepalived stop
    fi
fi

另外一种方式，直接在vrrp_script处定义要执行的命令，而不是使用一个额外的脚本来监控对象。例如：


vrrp_script check_haproxy {
        script "killall -0 haproxy"  # 此行改变
        interval 2
        weight 2
    }
 
global_defs {
        router_id haproxy1
    }
 
vrrp_instanceVI_1 {
        state MASTER
        interface eth0
        virtual_router_id 150
        priority 50
        advert_int 1
        authentication {
            auth_type PASS
            auth_pass 1111
        }
 
virtual_ipaddress{
        192.168.1.201
    }
track_script {
        check_haproxy
    }
}

上面的vrrp_script配置中，每两秒检查一次haproxy进程是否存在，连续检查fall <int>次数后都不存在就进入fault状态，由于没有指定fall <int>，所以一次检查失败就进入fault。

其实通过脚本控制比较复杂，因为要考虑脚本的返回值(不是退出状态码)。当然，如果直接像前面示例一样在脚本中直接进行restart、stop等操作也是可以的。

以上是关于KeepAlived：vrrp实例故障转移(keepalived+haproxy)的主要内容，如果未能解决你的问题，请参考以下文章

keepalived-高可用性故障转移的首选方案

VRRP协议与keepalived基本原理实例演示

Keepalived工作原理（简单概述）

keepalived

5-4keepalived与nginx实现高可用故障转移实战