Redis 突然变慢了如何排查并解决？

Posted 2022-02-21 码哥字节

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Redis 突然变慢了如何排查并解决？相关的知识，希望对你有一定的参考价值。

Redis 通常是我们业务系统中一个重要的组件，比如：缓存、账号登录信息、排行榜等。

一旦 Redis 请求延迟增加，可能就会导致业务系统“雪崩”。

我在单身红娘婚恋类型互联网公司工作，在双十一推出下单就送女朋友的活动。

谁曾想，凌晨 12 点之后，用户量暴增，出现了一个技术故障，用户无法下单，当时老大火冒三丈！

经过查找发现 Redis 报 Could not get a resource from the pool。

获取不到连接资源，并且集群中的单台 Redis 连接量很高。

大量的流量没了 Redis 的缓存响应，直接打到了 mysql，最后数据库也宕机了……

于是各种更改最大连接数、连接等待数，虽然报错信息频率有所缓解，但还是持续报错。

后来经过线下测试，发现存放 Redis 中的字符数据很大，平均 1s 返回数据。

可以发现，一旦 Redis 延迟过高，会引发各种问题。

今天「码哥」跟大家一起来分析下如何确定 Redis 有性能问题和解决方案。

延迟基线测量

慢指令监控

慢日志功能

Latency Monitoring

网络通信导致的延迟

慢指令导致的延迟

Fork 生成 RDB 导致的延迟

内存大页（transparent huge pages）

swap：操作系统分页

获取 Redis 实例 pid

解决方案

AOF 和磁盘 I/O 导致的延迟

expires 淘汰过期数据

解决方案

bigkey

查找 bigkey

解决方案

选项，用来监测和统计测试期间内的最大延迟（以毫秒为单位），这个延迟可以作为 Redis 的基线性能。

redis-cli --latency -h `host` -p `port`

比如执行如下指令：

redis-cli --intrinsic-latency 100
Max latency so far: 4 microseconds.
Max latency so far: 18 microseconds.
Max latency so far: 41 microseconds.
Max latency so far: 57 microseconds.
Max latency so far: 78 microseconds.
Max latency so far: 170 microseconds.
Max latency so far: 342 microseconds.
Max latency so far: 3079 microseconds.

45026981 total runs (avg latency: 2.2209 microseconds / 2220.89 nanoseconds per run).
Worst run took 1386x longer than the average latency.

来连接服务端，如果想监测网络对 Redis 的性能影响，可以使用 Iperf 测量客户端到服务端的网络延迟。
如果网络延迟几百毫秒，说明网络可能有其他大流量的程序在运行导致网络拥塞，需要找运维协调网络的流量分配。

来实现快照持久化，减少内存占用。

但 fork 会涉及到复制大量链接对象，一个 24 GB 的大型 Redis 实例需要 24 GB / 4 kB * 8 = 48 MB 的页表。

执行 bgsave 时，这将涉及分配和复制 48 MB 内存。

此外，从库加载 RDB 期间无法提供读写服务，所以主库的数据量大小控制在 2~4G 左右，让从库快速的加载完成。

和 EXPIRE 的过期时间参数上，加上一个一定大小范围内的随机数，这样，既保证了 key 在一个邻近时间范围内被删除，又避免了同时过期造成的压力。

Redis 突然变慢了如何排查并解决？

Redis 忽然变慢了如何排查并解决？

Redis 性能出问题了么？

延迟基线测量

慢指令监控

慢日志功能

Latency Monitoring

如何解决 Redis 变慢？

网络通信导致的延迟

慢指令导致的延迟

Fork 生成 RDB 导致的延迟

内存大页（transparent huge pages）

swap：操作系统分页

获取 Redis 实例 pid

解决方案

AOF 和磁盘 I/O 导致的延迟

expires 淘汰过期数据

解决方案

bigkey

查找 bigkey

解决方案

对大 key 拆分

异步清理大 key

总结