Redis主从复制丢失数据的情况分析

Posted 2023-03-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Redis主从复制丢失数据的情况分析相关的知识，希望对你有一定的参考价值。

参考技术A 1.主备切换的过程，可能会导致数据丢失

因为master -> slave的复制是异步的，所以可能有部分数据还没复制到slave，master就宕机了，此时这些部分数据就丢失了

2.脑裂导致的数据丢失

脑裂，也就是说，某个master所在机器突然脱离了正常的网络，跟其他slave机器不能连接，但是实际上master还运行着，此时哨兵可能就会认为master宕机了，然后开启选举，将其他slave切换成了master，这个时候，集群里就会有两个master，也就是所谓的脑裂，此时虽然某个slave被切换成了master，但是可能client还没来得及切换到新的master，还继续向旧master写数据，此时有可能也丢失了，因此旧master再次恢复的时候，会被作为一个slave挂到新的master上去，自己的数据会清空，重新从新的master复制数据

减少数据丢失的配置：

min-slaves-to-write 1

min-slaves-max-lag 10

要求至少有1个slave，数据复制和同步的延迟不能超过10秒，如果说一旦所有的slave，数据复制和同步的延迟都超过了10秒钟，那么这个时候，master就不会再接收任何请求了

有了min-slaves-max-lag这个配置，就可以确保说，一旦slave复制数据和ack延时太长，就认为可能master宕机后损失的数据太多了，那么就拒绝写请求，这样可以把master宕机时由于部分数据未同步到slave导致的数据丢失降低到可控范围内

如果一个master出现了脑裂，跟其它的slave丢失连接，那么这两个配置可以确保，如果不能继续给指定数量的slave发送数据，而且slave超过10秒没有给自己ack消息，那么就直接拒绝客户端的写请求，这样脑裂后的旧master就不会接受client的新数据，也就避免了数据丢失，因此在脑裂场景下，最多就丢失10秒的数据

在此我向大家推荐一个架构学习交流群。交流学习群号：938837867 暗号：555 里面会分享一些资深架构师录制的视频录像：有Spring，MyBatis，Netty源码分析，高并发、高性能、分布式、微服务架构的原理，JVM性能优化、分布式架构等这些成为架构师必备

Redis——Redis集群模式（主从复制哨兵Cluster）

Redis主从复制

通过持久化功能，redis保证了即使在服务器重启的情况下也不会丢失(或少量丢失)数据，因为持久化会把内存中的数据保存到硬盘上，重启会从硬盘上加载数据，但是由于数据是存儲在一台服务器上的，如果这台服务器出现硬盘故障等问题，也会导致数据丢失。
为了避免单点故障，通常的做法是将数据库复制多个副本以部署在不同的服务器上，这样即使有一台服务器出现故障，其他服务器依然可以继续提供服务，为此， redis提供了复制(replication)功能，可以实现当一台数据库中的数据更新后，自动将更新的数据同步到其他数据库上。
在复制的概念中，数据库分为两类，一类是主数据库(master) ，另一类是从数据(slave) 。主数据可以进行读写操作，当写操作导致数据变化时会自动将数据同步给从数据库，而从数据库一般是只读的，并接受主数据同步过来的数据。一个主数据库可以拥有多个从数据库，而一个从数据库只能拥有一个主数据库。

主从复制流程

若启动一个slave机器进程，则它会向master机器发送一个“sync command”命令，请求同步连接
无论是第一次连接还是重新连接，master机器都会启动一个后台进程，将数据快照（RDB）保存到数据文件中（执行RDB操作），同时master还会记录修改数据的所有命令，并缓存在数据文件中
后台进程完成缓存操作后，master机器就会向slave机器发送数据文件，slave端机器将数据文件保存在硬盘上，然后将其加载到内存中，接着master机器就会将修改数据的所有操作一并发送给slave端机器。若slave出现故障导致宕机，则恢复正常后会自动重新连接
master机器收到slave端机器的连接后，将其完整的数据文件发送给slave端机器，如果master同时收到多个slave发来的同步请求，则master会在后台启动一个进程以保存数据文件，然后将其发送给所有的slave端机器，确保所有的slave端机器都正常工作

哨兵模式

哨兵模式集群架构
哨兵是Redis集群架构中非常重要的一个组件，哨兵的出现主要是解决了主从复制出现故障时需要人为干预的问题
哨兵模式主要功能

集群监控：负责监控Redis的master和slave进程是否正常工作
消息通知：如果某个Redis实例有故障，那么哨兵负责发送消息作为告警通知给管理员
故障转移：如果master node(master角色)挂掉了，会自动转移到slave node上
配置中心：如果故障转移发生了，通知client客户端新的master地址

哨兵监控整个系统节点的过程

哨兵之间相互进行命令连接目的为了在同一频道进行信息共享和监控
哨兵们向master发送命令连接和订阅连接(周期性)
哨兵10/s向master发送info,iR-M会回应哨兵本节点的信息状态+从节点的位置
哨兵收到回复之后,知晓R-S01 R-S02的位置
然后再向slaves发送命令连接和订阅连接(周期性) ,以达到监控整个集群的目的

哨兵模式下的故障迁移

①：主观下线
哨兵(Sentinel)节点会每秒一次的频率向建立了命令连接的实例发送PING命令，如果在down-after-milliseconds毫秒内没有做出有效响应包括(PONG/ LOADING/MASTERDOWN)以外的响应，哨兵就会将该实例在本结构体中的状态标记为SRI_s_DOWN主观下线
②：客观下线
当一个哨兵节点发现主节点处于主观下线状态是，会向其他的哨兵节点发出询问，该节点是不是已经主观下线了。如果超过配置参数quorum个节点认为是主观下线时，该哨兵节点就会将自己维护的结构体中该主节点标记为SRIO DOWN客观下线询问命令SENTINEL is-master-down-by-addr
③：master选举
在认为主节点客观下线的情况下，哨兵节点节点间会发起一.次选举，命令为:SENTINEL is-master-down-by-addr只是runid这次会将自己的runid带进去，希望接受者将自己设置为主节点。如果超过半数以.上的节点返回将该节点标记为leacer的情况下，会有该leader对故障进行迁移
④：故障转移
在从节点中挑选出新的主节点
通讯正常
优先级排序
优先级相同时选择offset最大的( 最接近master的)
将该节点设置成新的主节点SLAVEOFnoone,并确保在后续的INGO命令时该节点返回状态为master
将其他的从节点设置成从新的主节点的从节点，SLAVEQF命令
将旧的主节点变成新的主节点的从节点

Cluster群集

redis的哨兵模式基本已经可以实现高可用、读写分离，但是在这种模式，每台redis服务器都存储相同的数据，很浪费内存资源，所以加入了 Cluster 群集模式，实现了redis的分布式存储，也就是说，每台redis节点存储着不同的内容
群集部署建议至少3台以上的master节点，建议使用3主3从六个节点的模式
Cluster 群集由多个redis服务器组成的分布式网络服务群集，群集中有多个master主节点，每个主节点都可读可写，节点之间会互相通信，两两相连，redis群集无中心节点

搭建主从复制

节点名	ip地址
msater	192.168.220.10
slave1	192.168.220.30
slave2	192.168.220.50

#关闭防火墙和核心防护
systemctl stop firewalld
systemctl disable firewalld
setenforce 0

#进行redis的安装（所有主机都需要安装）
yum install -y gcc gcc-c++ make
cd /opt
tar zxvf redis-5.0.7.tar.gz 
cd /opt/redis-5.0.7/
make -j 2 && make PREFIX=/usr/local/redis install
cd /opt/redis-5.0.7/utils
./install_server.sh
Please select the redis executable path [/usr/local/bin/redis-server] /usr/local/redis/bin/redis-server
ln -s /usr/local/redis/bin/* /usr/local/bin/

#Master节点（192.168.220.10）：
vim /etc/redis/6379.conf
bind 0.0.0.0									#70行，修改bind 项，0.0.0.0监听所有网段
daemonize yes							#137行，开启守护进程
logfile /var/log/redis_6379.log		#172行，指定日志文件目录
dir /var/lib/redis/6379					#264行，指定工作目录
appendonly yes							#700行，开启AOF持久化功能
/etc/init.d/redis_6379 restart 		#重启redis服务

#slaves节点（192.168.220.30、192.168.220.50）：
vim /etc/redis/6379.conf
bind 0.0.0.0										#70行，修改bind 项，0.0.0.0监听所有网卡
daemonize yes								#137行，开启守护进程
logfile /var/log/redis_6379.log			#172行，指定日志文件目录
dir /var/lib/redis/6379						#264行，指定工作目录
replicaof 192.168.220.10 6379		#288行，指定要同步的Master节点IP和端口
appendonly yes								#700行，开启AOF持久化功能
/etc/init.d/redis_6379 restart

#进行主从复制验证
tail -f /var/log/redis_6379.log    	#查看master节点日志
redis-cli info replication				#master上验证从节点

搭建哨兵模式

哨兵的核心功能：在主从复制的基础上，哨兵引入了主节点的自动故障转移
哨兵：是一个分布式系统，用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的 master 并将所有 slave 连接到新的 master 。所以整个运行哨兵的集群的数量不得少于3个节点。

#修改配置文件（所有节点）
vim /opt/redis-5.0.7/sentinel.conf
protected-mode no								#17行，关闭保护模式
port 26379										#21行，Redis哨兵默认的监听端口
daemonize yes									#26行，指定sentinel为后台启动
logfile "/var/log/sentinel.log"					#36行，指定日志存放路径
dir "/var/lib/redis/6379"						#65行，指定数据库存放路径
sentinel monitor mymaster 192.168.220.10 6379 2	#84行，修改 指定该哨兵节点监控192.168.184.10:6379这个主节点，该主节点的名称是mymaster，最后的2的含义与主节点的故障判定有关：至少需要2个哨兵节点同意，才能判定主节点故障并进行故障转移
sentinel down-after-milliseconds mymaster 30000	#113行，判定服务器down掉的时间周期，默认30000毫秒（30秒）
sentinel failover-timeout mymaster 180000		#146行，故障节点的最大超时时间为180000（180秒）

#启动哨兵模式
redis-sentinel /opt/redis-5.0.7/sentinel.conf &   #先启动master，再启动slave

#查看哨兵信息
redis-cli -p 26379 info sentinel

#模拟故障
netstat -natp | grep redis
kill -9 redis的进程

#查看哨兵的信息
redis-cli -p 26379 info sentinel

#查看日志
tail -f /var/log/sentinel.log

搭建Cluster集群

主机	      IP：端口	
Master1	  192.168.220.10:7001	
Slave1	  192.168.220.60:7006	
Master2   192.168.220.30:7003	
Slave2	  192.168.220.70:7007	
Master3	  192.168.220.50:7005	
Slave3	  192.168.220.80:7008


#其他5个文件夹的配置文件以此类推修改，注意6个端口和IP都要不一样。
vim /etc/redis/6379.conf

bind 192.168.220.10						#70行，修改bind项，监听自己的IP
protected-mode no						#89行，修改，关闭保护模式
port 7001								#93行，修改，redis监听端口，
daemonize yes							#137行，以独立进程启动
cluster-enabled yes						#833行，取消注释，开启群集功能
cluster-config-file nodes-6379.conf		#841行，取消注释，群集名称文件设置，无需修改
cluster-node-timeout 15000				#847行，取消注释群集超时时间设置
appendonly yes							#700行，修改，开启AOF持久化

#重启服务
/etc/init.d/redis_6379 restart

#加入集群
redis-cli --cluster create 192.168.220.10:7001 192.168.220.30:7003 192.168.220.50:7005 192.168.220.60:7006 192.168.220.70:7007 192.168.220.80:7008 --cluster-replicas 1

redis-cli -h 192.168.220.10 -p 7001 -c        #加-c参数，节点之间就可以互相跳转	
cluster slots			#查看节点的哈希槽编号范围
set sky blue
cluster keyslot sky	#查看name键的槽编号

以上是关于Redis主从复制丢失数据的情况分析的主要内容，如果未能解决你的问题，请参考以下文章