Redis学习笔记33——脑裂：奇怪的数据丢失

Posted 2022-11-25 qq_34132502

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Redis学习笔记33——脑裂：奇怪的数据丢失相关的知识，希望对你有一定的参考价值。

所谓的脑裂，就是指在主从集群中，同时有两个主节点，它们都能接收写请求。

而脑裂最直接的影响，就是客户端不知道应该往哪个主节点写入数据，结果就是不同的客户端会往不同的主节点上写入数据。而且，严重的话，脑裂会进一步导致数据丢失。

为什么会发生脑裂

第一步

在主从集群中发生数据丢失，最常见的原因就是主库的数据还没有同步到从库，结果主库发生了故障，等从库升级为主库后，未同步的数据就丢失了。如果是这种情况的数据丢失，我们可以通过比对主从库上的复制进度差值来进行判断，也就是计算 master_repl_offset 和 slave_repl_offset 的差值。

但，如果升级为新主库的从库的slave_repl_offset，和之前的主库master_repl_offset保持一致，那为什么还会出现数据丢呢？

第二步

这时我们还可以检查客户端的操作日志。

我们发现，在主从切换后的一段时间内，有一个客户端仍然在和原主库通信，并没有和升级的新主库进行交互。这就相当于主从集群中同时有了两个主库。这就是脑裂。

但是，这种情况下，会导致新数据分布在不同的主库上，并不会导致数据丢失，那为什么这个数据仍然不见了呢？

第三步

我们是采用哨兵机制进行主从切换的，当主从切换发生时，一定是有超过预设数量（quorum 配置项）的哨兵实例和主库的心跳都超时了，才会把主库判断为客观下线，然后，哨兵开始执行切换操作。哨兵切换完成后，客户端会和新主库进行通信，发送请求操作。

但是，在切换过程中，既然客户端仍然和原主库通信，这就表明，原主库并没有真的发生故障（例如主库进程挂掉）。主库可能是由于某些原因无法处理请求，也没有响应哨兵的心跳，才被哨兵错误地判断为客观下线的。结果，在被判断下线之后，原主库又重新开始处理请求了，而此时，哨兵还没有完成主从切换，客户端仍然可以和原主库通信，客户端发送的写操作就会在原主库上写入数据了。

这种原因可能是当前主库正在进行复杂度很高的任务，CPU占用率很高，导致Redis主库无法响应心跳了。在这期间，超过半数的哨兵就把出库判断为客观下线，开始了主从切换。不过，这个任务很快就恢复了正常，CPU的使用率下降，此时主库又开始正常服务请求了。

正因为原主库并没有真的发生故障，我们在客户端操作日志中就看到了和原主库的通信记录。等到从库被升级为新主库后，主从集群里就有两个主库了，到这里，我们就把脑裂发生的原因摸清楚了。

为什么脑裂会导致数据丢失

主从切换后，从库一旦升级为新主库，哨兵就会让原主库执行 slave of 命令，和新主库重新进行全量同步。而在全量同步执行的最后阶段，原主库需要清空本地的数据，加载新主库发送的 RDB 文件，这样一来，原主库在主从切换期间保存的新写数据就丢失了。

如何应对脑裂问题

既然问题是出在原主库发生假故障后仍然能接收请求上，我们就开始在主从集群机制的配置项中查找是否有限制主库接收请求的设置。

可以考虑两个配置项来限制主库的请求处理：

min-slaves-to-write：这个配置项设置了主库能进行数据同步的最少从库数量；
min-slaves-max-lag：这个配置项设置了主从库间进行数据复制时，从库给主库发送 ACK 消息的最大延迟（以秒为单位）。

我们可以把 min-slaves-to-write 和 min-slaves-max-lag 这两个配置项搭配起来使用，分别给它们设置一定的阈值，假设为 N 和 T。这两个配置项组合后的要求是，主库连接的从库中至少有 N 个从库，和主库进行数据复制时的 ACK 消息延迟不能超过 T 秒，否则，主库就不会再接收客户端的请求了。

以上是关于Redis学习笔记33——脑裂：奇怪的数据丢失的主要内容，如果未能解决你的问题，请参考以下文章