企业运维之 Lvs 负载均衡和高可用
Posted 123坤
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了企业运维之 Lvs 负载均衡和高可用相关的知识,希望对你有一定的参考价值。
企业运维之 Lvs 负载均衡和高可用
1. LVS简介
LVS(Linux Virtual Server)即Linux虚拟服务器,是由章文嵩博士主导的开源负载均衡项目,目前LVS已经被集成到Linux内核模块中。该项目在Linux内核中实现了基于IP的数据请求负载均衡调度方案,其体系结构如图所示,终端互联网用户从外部访问公司的外部负载均衡服务器,终端用户的Web请求会发送给LVS调度器,调度器根据自己预设的算法决定将该请求发送给后端的某台Web服务器,比如,轮询算法可以将外部的请求平均分发给后端的所有服务器,终端用户访问LVS调度器虽然会被转发到后端真实的服务器,但如果真实服务器连接的是相同的存储,提供的服务也是相同的服务,最终用户不管是访问哪台真实服务器,得到的服务内容都是一样的,整个集群对用户而言都是透明的。最后根据LVS工作模式的不同,真实服务器会选择不同的方式将用户需要的数据发送到终端用户,LVS工作模式分为NAT模式、TUN模式、以及DR模式。
2. 工作模式的介绍
1. 基于NAT的LVS模式负载均衡
NAT(Network Address Translation)即网络地址转换,其作用是通过数据报头的修改,使得位于企业内部的私有IP地址可以访问外网,以及外部用用户可以访问位于公司内部的私有IP主机。VS/NAT工作模式拓扑结构如图所示,LVS负载调度器可以使用两块网卡配置不同的IP地址,eth0设置为私钥IP与内部网络通过交换设备相互连接,eth1设备为外网IP与外部网络联通。
第一步,用户通过互联网DNS服务器解析到公司负载均衡设备上面的外网地址,相对于真实服务器而言,LVS外网IP又称VIP(Virtual IP Address),用户通过访问VIP,即可连接后端的真实服务器(Real Server),而这一切对用户而言都是透明的,用户以为自己访问的就是真实服务器,但他并不知道自己访问的VIP仅仅是一个调度器,也不清楚后端的真实服务器到底在哪里、有多少真实服务器。
第二步,用户将请求发送至124.126.147.168,此时LVS将根据预设的算法选择后端的一台真实服务器(192.168.0.1~192.168.0.3),将数据请求包转发给真实服务器,并且在转发之前LVS会修改数据包中的目标地址以及目标端口,目标地址与目标端口将被修改为选出的真实服务器IP地址以及相应的端口。
第三步,真实的服务器将响应数据包返回给LVS调度器,调度器在得到响应的数据包后会将源地址和源端口修改为VIP及调度器相应的端口,修改完成后,由调度器将响应数据包发送回终端用户,另外,由于LVS调度器有一个连接Hash表,该表中会记录连接请求及转发信息,当同一个连接的下一个数据包发送给调度器时,从该Hash表中可以直接找到之前的连接记录,并根据记录信息选出相同的真实服务器及端口信息。
2. 基于TUN的LVS负载均衡
在LVS(NAT)模式的集群环境中,由于所有的数据请求及响应的数据包都需要经过LVS调度器转发,如果后端服务器的数量大于10台,则调度器就会成为整个集群环境的瓶颈。我们知道,数据请求包往往远小于响应数据包的大小。因为响应数据包中包含有客户需要的具体数据,所以LVS(TUN)的思路就是将请求与响应数据分离,让调度器仅处理数据请求,而让真实服务器响应数据包直接返回给客户端。VS/TUN工作模式拓扑结构如图所示。其中,IP隧道(IP tunning)是一种数据包封装技术,它可以将原始数据包封装并添加新的包头(内容包括新的源地址及端口、目标地址及端口),从而实现将一个目标为调度器的VIP地址的数据包封装,通过隧道转发给后端的真实服务器(Real Server),通过将客户端发往调度器的原始数据包封装,并在其基础上添加新的数据包头(修改目标地址为调度器选择出来的真实服务器的IP地址及对应端口),LVS(TUN)模式要求真实服务器可以直接与外部网络连接,真实服务器在收到请求数据包后直接给客户端主机响应数据。
3. 基于DR的LVS负载均衡
在LVS(TUN)模式下,由于需要在LVS调度器与真实服务器之间创建隧道连接,这同样会增加服务器的负担。与LVS(TUN)类似,DR模式也叫直接路由模式,其体系结构如图4所示,该模式中LVS依然仅承担数据的入站请求以及根据算法选出合理的真实服务器,最终由后端真实服务器负责将响应数据包发送返回给客户端。与隧道模式不同的是,直接路由模式(DR模式)要求调度器与后端服务器必须在同一个局域网内,VIP地址需要在调度器与后端所有的服务器间共享,因为最终的真实服务器给客户端回应数据包时需要设置源IP为VIP地址,目标IP为客户端IP,这样客户端访问的是调度器的VIP地址,回应的源地址也依然是该VIP地址(真实服务器上的VIP),客户端是感觉不到后端服务器存在的。由于多台计算机都设置了同样一个VIP地址,所以在直接路由模式中要求调度器的VIP地址是对外可见的,客户端需要将请求数据包发送到调度器主机,而所有的真实服务器的VIP地址必须配置在Non-ARP的网络设备上,也就是该网络设备并不会向外广播自己的MAC及对应的IP地址,真实服务器的VIP对外界是不可见的,但真实服务器却可以接受目标地址VIP的网络请求,并在回应数据包时将源地址设置为该VIP地址。调度器根据算法在选出真实服务器后,在不修改数据报文的情况下,将数据帧的MAC地址修改为选出的真实服务器的MAC地址,通过交换机将该数据帧发给真实服务器。整个过程中,真实服务器的VIP不需要对外界可见。
4. 基于FULLNAT 的LVS 负载均衡
FULLNAT模式和 NAT 模式的区别是:Packet IN 时,除了做 DNAT,还做 SNAT(用户 ip->内网 ip),从而实现 LVS-RealServer 间可以跨 vlan 通讯,RealServer 只需要连接到内网。
客户端发送数据包到调度器上的vip,调度器将数据包源地址转化为本地lip,再使用本地地址将数据包转发到真实服务器上的rip,这就实现了一次SNAT+DNAT;真实服务器在作出响应后,将数据包发送到调度器的lip,再由调度器作转换后,以vip发送到客户端cip,又实现了一次SNAT+DNAT。
3. LVS负载均衡调度算法
了解了LVS的三种工作模式之后,不管实际环境中采用的是哪种模式,调度算法进行调度的策略与算法都是LVS的核心技术,LVS在内核中主要实现了一下十种调度算法。
-
轮询调度(Round Robin 简称’RR’)
按依次循环的方式将请求调度到不同的服务器上,该算法最大的特点就是实现简单。轮询算法假设所有的服务器处理请求的能力都一样的,调度器会将所有的请求平均分配给每个真实服务器。 -
加权轮询调度(Weight Round Robin 简称’WRR’)
对轮询算法的一种优化与补充,LVS会考虑每台服务器的性能,并给每台服务器添加一个权值,如果服务器A的权值为1,服务器B的权值为2,则调度器调度到服务器B的请求会是服务器A的两倍。权值越高的服务器,处理的请求越多。 -
最小连接调度(Least Connections 简称’LC’)
把新的连接请求分配到当前连接数最小的服务器。最小连接调度是一种动态的调度算法,它通过服务器当前活跃的连接数来估计服务器的情况。调度器需要记录各个服务器已建立连接的数目,当一个请求被调度到某台服务器,其连接数加1;当连接中断或者超时,其连接数减1。
(集群系统的真实服务器具有相近的系统性能,采用最小连接调度算法可以比较好地均衡负载。) -
加权最小连接调度(Weight Least Connections 简称’WLC’)
最小连接调度的超集,各个服务器相应的权值表示其处理性能。服务器的缺省权值为1,系统管理员可以动态地设置服务器的权值。加权最小连接调度在调度新连接时尽可能使服务器的已建立连接数和其权值成比例。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。 -
基于局部的最少连接(Locality-Based Least Connections 简称’LBLC’)
针对请求报文的目标IP地址的 负载均衡调度,目前主要用于Cache集群系统,因为在Cache集群客户请求报文的目标IP地址是变化的。这里假设任何后端服务器都可以处理任一请求,算法的设计目标是在服务器的负载基本平衡情况下,将相同目标IP地址的请求调度到同一台服务器,来提高各台服务器的访问局部性和Cache命中率,从而提升整个集群系统的处理能力。LBLC调度算法先根据请求的目标IP地址找出该目标IP地址最近使用的服务器,若该服务器是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则使用’最少连接’的原则选出一个可用的服务器,将请求发送到服务器。 -
带复制的基于局部性的最少连接(Locality-Based Least Connections with Replication 简称’LBLCR’)
是针对目标IP地址的负载均衡,目前主要用于Cache集群系统,它与LBLC算法不同之处是它要维护从一个目标IP地址到一组服务器的映射,而LBLC算法维护从一个目标IP地址到一台服务器的映射。按’最小连接’原则从该服务器组中选出一一台服务器,若服务器没有超载,将请求发送到该服务器;若服务器超载,则按’最小连接’原则从整个集群中选出一台服务器,将该服务器加入到这个服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,以降低复制的程度。 -
目标地址散列调度(Destination Hashing 简称’DH’)
根据请求的目标IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且并未超载,将请求发送到该服务器,否则返回空。 -
源地址散列调度(Source Hashing 简称’SH’)
根据请求的源IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且并未超载,将请求发送到该服务器,否则返回空。它采用的散列函数与目标地址散列调度算法的相同,它的算法流程与目标地址散列调度算法的基本相似。 -
最短的期望的延迟(Shortest Expected Delay 简称’SED’)
最短的期望的延迟是基于WLC算法。举个例子吧,ABC三台服务器的权重分别为1、2、3 。那么如果使用WLC算法的话一个新请求进入时它可能会分给ABC中的任意一个。使用SED算法后会进行一个运算
A:(1+1)/1=2 B:(1+2)/2=3/2 C:(1+3)/3=4/3 就把请求交给得出运算结果最小的服务器。 -
最少队列调度(Never Queue 简称’NQ’)
最少队列调度算法,无需队列。如果有realserver的连接数等于0就直接分配过去,不需要在进行SED运算。
4. LVS 的DR模式
前期准备
四台虚拟机(Server1-4),其中 1 和 4 为调度器,2和3为RealServer。
调度主机安装 ipvsadm,RS安装测试所需的 httpd 和处理 arp 协议所需的防火墙 arptables。
所有虚拟机设置VIP为172.25.105.100
- DR算法的调度
先给测试主机安装http
,然后编写发布页面,并启动httpd
服务;
[root@server2 ~]# yum install -y httpd
[root@server2 ~]# echo server2 > /var/www/html/index.html
[root@server2 ~]# systemctl start httpd
[root@server3 ~]# yum install -y httpd
[root@server3 ~]# echo server3 > /var/www/html/index.html
[root@server3 ~]# systemctl start httpd
在调度器安装ipvsadm
来管理;
[root@server1 ~]# yum install -y ipvsadm
[root@server1 ~]# ip addr add 172.25.105.100/24 dev eth0 #添加 vip
[root@server1 ~]# ip addr
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 52:54:00:83:b5:8a brd ff:ff:ff:ff:ff:ff
inet 172.25.105.1/24 brd 172.25.105.255 scope global eth0
valid_lft forever preferred_lft forever
inet 172.25.105.100/24 scope global secondary eth0
valid_lft forever preferred_lft forever
inet6 fe80::5054:ff:fe83:b58a/64 scope link
valid_lft forever preferred_lft forever
[root@server1 ~]# ipvsadm --help #查看帮助
root@server1 ~]# ipvsadm -A -t 172.25.105.100:80 -s rr
#添加调度器的vip,其中rr表示轮询调度算法;
[root@server1 ~]# ipvsadm -a -t 172.25.105.100:80 -r 172.25.105.2:80 -g
[root@server1 ~]# ipvsadm -a -t 172.25.105.100:80 -r 172.25.105.3:80 -g
#将2和3作为真实主机被负载均衡服务器所管理
[root@server1 ~]# ipvsadm -ln #不做解析的查看lvs调度器
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP server1:http rr
-> 172.25.105.2:http Route 1 0 0
-> 172.25.105.3:http Route 1 0 0
此时在查看时,可以看到调度器可以将请求负载均衡的调度到后端去。
注意:当添加错误要删除时,可以将-A或-a改为-D或-d删除即可,删除时,先删除RS,再删除LVS。
在访问时没有,DR模式是路由直连,虽然已经访问到100,并且也做了调度的动作,但是基于TCP的三次握手,在调度时没有找到目标地址100,就会丢弃。
[root@westos images]# curl 172.25.105.100
^C
[root@westos images]# curl 172.25.105.100
^C
[root@westos images]# curl 172.25.105.100
^C
[root@westos images]# curl 172.25.105.100
[root@server1 ~]# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP 172.25.105.100:80 rr
-> 172.25.105.2:80 Route 1 0 2
-> 172.25.105.3:80 Route 1 0 2
#此时虽然出不去,但是也做了调度的动作。
此时可以在需要负载的服务器上添加vip;
[root@server2 ~]# ip addr add 172.25.105.100/32 dev eth0
[root@server3 ~]# ip addr add 172.25.105.100/32 dev eth0
[root@westos images]# for i in {1..10} ; do curl 172.25.105.100 ;done
server3
server2
server3
server2
server3
server2
server3
server2
server3
server2
此时再次访问时负载均衡没有问题。
lvs 是基于mac地址的访问;当mac 改变时,此时便访问出现问题;
[root@westos images]# arp -an | grep 100
? (172.25.105.100) at 52:54:00:83:b5:8a [ether] on br0
[root@westos images]# arp -d 172.25.105.100
[root@westos images]# arp -an | grep 100
#改变mac 地址来测试:
[root@westos images]# ping 172.25.105.100
PING 172.25.105.100 (172.25.105.100) 56(84) bytes of data.
64 bytes from 172.25.105.100: icmp_seq=1 ttl=64 time=0.328 ms
^C
--- 172.25.105.100 ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 0.328/0.328/0.328/0.000 ms
[root@westos images]# arp -an | grep 100
? (172.25.105.100) at 52:54:00:91:7b:7d [ether] on br0
[root@westos images]# for i in {1..10} ; do curl 172.25.105.100 ;done
server3
server3
server3
server3
server3
server3
server3
server3
server3
server3
[root@server1 ~]# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP 172.25.105.100:80 rr
-> 172.25.105.2:80 Route 1 0 0
-> 172.25.105.3:80 Route 1 0 0
DR
模式时,是在一个vlan 里面;可以看到负载服务器和调度器都有了VIP
之后,当mac 地址为调度器的mac 地址时,才会去做负载的动作;否则是跳过调度器直接和服务器连接的;这种情况就失去了调度器的功能。
为避免这种情况,需要对RS进行arp防火墙设置;
arptables -A INPUT -d 172.25.105.100 -i DROP
表示设定防火墙策略,将arp过来访问100的信息丢弃;输入arptables -A OUTPUT -s 172.25.105.100 -j mangle --mangle-ip-s 172.25.105.2
,表示将arp出去时的信息转到servers2上;
[root@server2 ~]# yum install -y arptables
[root@server2 ~]# arptables --help
[root@server2 ~]# arptables -A INPUT -d 172.25.105.100 -i DROP
[root@server2 ~]# arptables -A OUTPUT -s 172.25.105.100 -j mangle --mangle-ip-s 172.25.105.2
[root@server2 ~]# arptables-save
*filter
:INPUT ACCEPT
:OUTPUT ACCEPT
:FORWARD ACCEPT
-A INPUT -j DROP -d 172.25.105.100
-A OUTPUT -j mangle -s 172.25.105.100 --mangle-ip-s 172.25.0.2
[root@server2 ~]# arptables-save > /etc/sysconfig/arptables
[root@server2 ~]# systemctl start arptables
[root@server2 ~]# arptables -nL
Chain INPUT (policy ACCEPT)
-j DROP -d 172.25.105.100
Chain OUTPUT (policy ACCEPT)
-j mangle -s 172.25.105.100 --mangle-ip-s 172.25.105.2
Chain FORWARD (policy ACCEPT)
[root@server3 ~]# yum install -y arptables
[root@server3 ~]# arptables -nL
Chain INPUT (policy ACCEPT)
Chain OUTPUT (policy ACCEPT)
Chain FORWARD (policy ACCEPT)
Chain l (0 references)
[root@server3 ~]# vim /etc/sysconfig/arptables
[root@server3 ~]# systemctl start arptables
[root@server3 ~]# arptables -nL
Chain INPUT (policy ACCEPT)
-j DROP -d 172.25.105.100
Chain OUTPUT (policy ACCEPT)
-j mangle -s 172.25.105.100 --mangle-ip-s 172.25.105.3
Chain FORWARD (policy ACCEPT)
此时再次测试就可以了,只会解析到调度器的vip,其他的解析不到。
[root@westos images]# arp -d 172.25.105.100
[root@westos images]# ping 172.25.105.100
PING 172.25.105.100 (172.25.105.100) 56(84) bytes of data.
64 bytes from 172.25.105.100: icmp_seq=1 ttl=64 time=0.326 ms
^C
--- 172.25.105.100 ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 0.326/0.326/0.326/0.000 ms
[root@westos images]# arp -an | grep 100
? (172.25.105.100) at 52:54:00:83:b5:8a [ether] on br0
[root@westos images]# arp -d 172.25.105.100
[root@westos images]# ping 172.25.105.100
PING 172.25.105.100 (172.25.105.100) 56(84) bytes of data.
64 bytes from 172.25.105.100: icmp_seq=1 ttl=64 time=0.410 ms
^C
--- 172.25.105.100 ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 0.410/0.410/0.410/0.000 ms
[root@westos images]# arp -an | grep 100
? (172.25.105.100) at 52:54:00:83:b5:8a [ether] on br0
[root@westos images]# for i in {1..10} ; do curl 172.25.105.100 ;done
server3
server2
server3
server2
server3
server2
server3
server2
server3
server2
- LVS健康检查
LVS本身并不具有健康检查功能,也就是说如果2或3上的httpd出现问题无法正常工作时,会一如既往的调度到出现问题的RS,出现报错。
[root@server2 ~]# systemctl stop httpd
[root@westos images]# curl 172.25.105.100
server3
[root@westos images]# curl 172.25.105.100
curl: (7) Failed to connect to 172.25.105.100 port 80: Connection refused
[root@westos images]# curl 172.25.105.100
server3
[root@westos images]# curl 172.25.105.100
curl: (7) Failed to connect to 172.25.105.100 port 80: Connection refused
[root@server1 ~]# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP 172.25.105.100:80 rr
-> 172.25.105.2:80 Route 1 0 2
-> 172.25.105.3:80 Route 1 0 2
注:即使调度器本身也开启了80端口,此时即使后端全 down 掉,也不会访问本机的端口,因为本机的80并不在策略中。
keepalived
可以解决健康检查的问题;keepalived 的工作原理是基于 vrrp 协议实现的。
默认的邮件 postfix,端口是25
[root@server1 ~]# yum install -y keepalived
[root@server1 ~]# cd /etc/keepalived/
[root@server1 keepalived]# vim keepalived.conf
3 global_defs {
4 notification_email {
5 root@localhost #本机的邮件服务器
6 }
7 notification_email_from keepalived@localhost
8 smtp_server 127.0.0.1 #服务器地址
9 smtp_connect_timeout 30
10 router_id LVS_DEVEL
11 vrrp_skip_check_adv_addr
12 #vrrp_strict
13 vrrp_garp_interval 0
14 vrrp_gna_interval 0
15 }
17 vrrp_instance VI_1 {
18 state MASTER
19 interface eth0
20 virtual_router_id 105
21 priority 100
22 advert_int 1
23 authentication {
24 auth_type PASS
25 auth_pass 1111
26 }
27 virtual_ipaddress {
28 172.25.105.100 #vip 地址
29 }
30 }
31
32 virtual_server 172.25.105.100 80 {
33 delay_loop 6
34 lb_algo rr #rr算法
35 lb_kind DR #DR模式
36 #persistence_timeout 50
37 protocol TCP
39 real_server 172.25.105.2 80 {
40 weight 1
41 TCP_CHECK {
42 connect_timeout 3 #连接超时时间
43 nb_get_retry 3
44 delay_before_retry 3
45 }
46 }
47 real_server 172.25.105.3 80 {
48 weight 1
49 TCP_CHECK {
50 connect_timeout 3
51 nb_get_retry 3
52 delay_before_retry 3
53 }
54 }
55 }
该完之后,删除之前的策略以及vip;启动服务,会根据文件内容自动生成策略以vip;
[root@server1 keepalived]# ip addr del 172.25.105.100/24 dev eth0
[root@server1 keepalived]# ip addr
[root@server1 keepalived]# ipvsadm -C #删除之前的策略
[root@server1 keepalived]# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
[root@server1 keepalived]# systemctl start keepalived
#启动服务之后会自动生成策略,此时对后端有健康检查
[root@server1 keepalived]# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP 172.25.105.100:80 rr
-> 172.25.105.3:80 Route 1 0 0
You have mail in /var/spool/mail/root
可以看到由于server2停掉了 httpd
服务,此时是可以检查到的。
可以下载mailx
来用命令mail
查看邮件信息。
- keepalived实现冗余判断(高可用)
如果只有一台调度机而调度机损坏,则无论RS是否完好整个系统都会崩溃。当需要多台调度机做高可用时也可以使用keepalived
来进行设置。
在另外的一台主机上来作为备机;
[root@server4 ~]# yum install keepalived -y
#将server1上配置文件复制过来只需要更改优先级和身份即可
17 vrrp_instance VI_1 {
18 state BACKUP
19 interface eth0
20 virtual_router_id 105
21 priority 50
22 advert_int 1
23 authentication {
24 auth_type PASS
linux运维之LVS(一)