Redis学习总结(下)——哨兵模式集群应用问题解决
Posted AC_Jobim
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Redis学习总结(下)——哨兵模式集群应用问题解决相关的知识,希望对你有一定的参考价值。
Redis学习总结(下)——哨兵模式、集群、应用问题解决
一、哨兵模式(sentinel)
1.1 哨兵模式的简介
-
主从切换技术的方法是︰当主服务器宕机后,需要手动把一台从服务器切换为主服务器,这就需要人工干预,费事费力,还会造成一段时间内服务不可用。这不是一种推荐的方式,更多时候,我们优先考虑哨兵模式。Redis从2.8开始正式提供了Sentinel (哨兵)架构来解决这个问题。
-
哨兵(sentinel) 是一个分布式系统,用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的master并将所有slave连接到新的master。原主机重启后会变为从机。
哨兵的作用:
- 监控
不断的检查master和slave是否正常运行。
master存活检测、master与slave运行情况检测 - 通知(提醒)
当被监控的服务器出现问题时,向其他(哨兵间,客户端)发送通知。 - 自动故障转移
断开master与slave连接,选取一个slave作为master,将其他slave连接到新的master,并告知客户端新的服务器地址
注意:
- 哨兵也是一台redis服务器,只是不提供数据服务
- 通常哨兵配置数量为单数
1.2 启动哨兵模式
1.2.1 部署哨兵节点(配置三个哨兵)
-
首先配置出一主俩从节点(参考主从复制的配置)
-
定义三个哨兵的配置文件
sentinel monitor mymaster 127.0.0.1 6379 2 配置的含义是:该哨兵节点监控127.0.0.1:6379这个主节点,该主节点的名称是mymaster,最后的2的含义与主节点的故障判定有关:至少需要2个哨兵节点同意,才能判定主节点故障并进行故障转移。 -
启动三个哨兵
redis-sentinel sentinel26379.conf redis-server sentinel26379.conf --sentinel # 二者作用是完全相同
1.2.2 演示故障转移
演示当主节点发生故障时,哨兵的监控和自动故障转移功能
-
shutdown主服务器
-
当6379主机挂掉,一段时间以后,发现主节点已经切换成6380节点从机选举中产生新的主机。
用文字描述一下故障切换(failover)的过程。假设主服务器宕机,哨兵1先检测到这个结果,系统并不会马上进行failover过程,仅仅是哨兵1主观的认为主服务器不可用,这个现象成为主观下线。当后面的哨兵也检测到主服务器不可用,并且数量达到一定值时,那么哨兵之间就会进行一次投票,投票的结果由一个哨兵发起,进行failover操作。切换成功后,就会通过发布订阅模式,让各个哨兵把自己监控的从服务器实现切换主机,这个过程称为客观下线。这样对于客户端而言,一切都是透明的。同时可以发现,哨兵节点认为新的主节点仍然有2个从节点,这是因为哨兵在将6380切换成主节点的同时,将6379节点置为其从节点;虽然6379从节点已经挂掉,但是由于哨兵并不会对从节点进行客观下线(其含义将在原理部分介绍),因此认为该从节点一直存在。当6379节点重新启动后,会自动变成6380节点的从节点。下面验证一下。
二、集群
Redis 集群实现了对Redis的水平扩容,即启动N个redis节点,将整个数据库分布存储在这N个节点中,每个节点存储总数据的1/N。
Redis 集群通过分区(partition)来提供一定程度的可用性(availability): 即使集群中有一部分节点失效或者无法进行通讯, 集群也可以继续处理命令请求。
作用:
- 分散单台服务器的访问压力,实现负载均衡
- 分散单台服务器的存储压力,实现可扩展性
- 降低单台服务器宕机带来的业务灾难
2.1 Redis集群搭建
6379,6380,6381,6389,6390,6391
6379,6380,6381为三个主机
6389,6390,6391为三个从机
-
定义6个配置文件
include /myredis/redis.conf pidfile /var/run/redis_6379.pid port 6379 dbfilename dump6379.rdb cluster-enabled yes cluster-config-file nodes-6379.conf cluster-node-timeout 15000 include /myredis/redis.conf pidfile /var/run/redis_6380.pid port 6380 dbfilename dump6380.rdb cluster-enabled yes cluster-config-file nodes-6380.conf cluster-node-timeout 15000 include /myredis/redis.conf pidfile /var/run/redis_6381.pid port 6381 dbfilename dump6381.rdb cluster-enabled yes cluster-config-file nodes-6381.conf cluster-node-timeout 15000 include /myredis/redis.conf pidfile /var/run/redis_6382.pid port 6382 dbfilename dump6382.rdb cluster-enabled yes cluster-config-file nodes-6382.conf cluster-node-timeout 15000 include /myredis/redis.conf pidfile /var/run/redis_6389.pid port 6389 dbfilename dump6389.rdb cluster-enabled yes cluster-config-file nodes-6389.conf cluster-node-timeout 15000 include /myredis/redis.conf pidfile /var/run/redis_6390.pid port 6390 dbfilename dump6390.rdb cluster-enabled yes cluster-config-file nodes-6390.conf cluster-node-timeout 15000
-
启动6个redis服务
-
将六个节点合成一个集群
组合之前,请确保所有redis实例启动后,nodes-xxxx.conf文件都生成正常。
cd /opt/redis-6.2.1/src,在src目录下执行
redis-cli --cluster create --cluster-replicas 1 192.168.2.4:6379 192.168.2.4:6380 192.168.2.4:6381 192.168.2.4:6389 192.168.2.4:6390 192.168.2.4:6391
注意不能使用127.0.0.1, 请用真实IP地址。
replicas 1
采用最简单的方式配置集群,一台主机,一台从机,正好三组。
-
登录集群
可能直接进入读主机,存储数据时,会出现MOVED重定向操作。所以,应该以集群方式登录。
-c 采用集群策略连接
,设置数据会自动切换到相应的写主机通过
cluster nodes
命令查看集群信息
redis cluster 如何分配这六个节点?
一个集群至少要有三个主节点。
选项 --cluster-replicas 1 表示我们希望为集群中的每个主节点创建一个从节点。
分配原则尽量保证每个主数据库运行在不同的IP地址,每个从库和主库不在一个IP地址上。
2.2 slots(插槽)
-
在集群中录入值
在redis-cli每次录入、查询键值,redis都会计算出该key应该送往的插槽,如果不是该客户端对应服务器的插槽,redis会报错,并告知应前往的redis实例地址和端口。
redis-cli 客户端提供了–c 参数实现自动重定向
。
如 redis-cli -c –p 6379 登入后,再录入、查询键值对可以自动重定向
-
查询集群中的值
查看key的插槽值是多少
2.3 故障恢复
-
如果主节点下线,则从节点将自动升为主节点。
-
主节点恢复后,主节点将变成从机。
-
redis.conf中的参数
cluster-require-full-coverage
如果某一段插槽的主从都挂掉,而
cluster-require-full-coverage 为yes
,那么 ,整个集群都挂掉.
如果某一段插槽的主从都挂掉,而cluster-require-full-coverage 为no
,那么,该插槽数据全都不能使用,也无法存储。
2.4 1集群的Jedis开发
public class RedisClusterDemo {
public static void main(String[] args) throws IOException {
//创建对象
HostAndPort hostAndPort = new HostAndPort("192.168.2.4", 6379);
JedisCluster jedisCluster = new JedisCluster(hostAndPort);
//进行操作
jedisCluster.set("b1","value1");
String value = jedisCluster.get("b1");
System.out.println("value:"+value);
jedisCluster.close();
}
}
三、应用问题解决
3.1 缓存穿透
缓存穿透
是指缓存和数据库中都没有的数据,导致所有的请求都落到数据库上,造成数据库短时间内承受大量请求而崩掉。- 我们的数据库中的主键都是从0开始的,即使我们将数据库中的所有数据都放到了缓存中。当有人用
id = -1
来发生恶意请求时,因为redis中没有这个数据,就会直接访问数据库,这就称谓缓存穿透
解决办法:
- 对空值缓存:如果一个查询返回的数据为空(不管是数据是否不存在),我们仍然把这个空结果(null)进行缓存,设置空结果的过期时间会很短,最长不超过五分钟
- 设置可访问的名单(白名单):
使用bitmaps类型定义一个可以访问的名单,名单id作为bitmaps的偏移量,每次访问和bitmap里面的id进行比较,如果访问id不在bitmaps里面,进行拦截,不允许访问。 - 采用布隆过滤器:(布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数(哈希函数)。
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。)
将所有可能存在的数据哈希到一个足够大的bitmaps中,一个一定不存在的数据会被 这个bitmaps拦截掉,从而避免了对底层存储系统的查询压力。 - 进行实时监控:当发现Redis的命中率开始急速降低,需要排查访问对象和访问的数据,和运维人员配合,可以设置黑名单限制服务
3.2 缓存击穿
缓存击穿
是指缓存中没有但数据库中有的数据(一般是缓存时间到期),这时由于并发用户特别多,同时读缓存没读到数据,又同时去数据库去取数据,引起数据库压力瞬间增大,造成过大压力。- 缓存击穿指并发请求大量查询同一条数据, 造成数据库崩溃;
- 缓存雪崩是不同数据都过期了(大面积缓存数据过期),很多数据都查不到从而查数据库。
缓存击穿的原因:
- Redis中 某个key过期,该key访问量巨大
- 多个数据请求从服务器直接压到Redis后,均未命中
- Redis在短时间内发起了大量对数据库中同一数据的访问
解决办法:
- **预先设置热门数据:**在redis高峰访问之前,把一些热门数据提前存入到redis里面,加大这些热门数据key的时长
- **实时调整:**现场监控哪些数据热门,实时调整key的过期时长
- 使用锁:
- 就是在缓存失效的时候(判断拿出来的值为空),不是立即去load db。
- 先使用缓存工具的某些带成功操作返回值的操作(比如Redis的SETNX)去set一个mutex key
- 当操作返回成功时,再进行load db的操作,并回设缓存,最后删除mutex key;
- 当操作返回失败,证明有线程在load db,当前线程睡眠一段时间再重试整个get缓存的方法。
3.3 缓存雪崩
缓存雪崩
是指缓存同一时间大面积的失效,所以,后面的请求都会落到数据库上,造成数据库短时间内承受大量请求而崩掉。
缓存雪崩原因:
- 在一个较短的时间内,缓存中较多的key集中过期
解决办法:
- 构建多级缓存架构:nginx缓存 + redis缓存 +其他缓存(ehcache等)
- 使用锁或队列:
用加锁或者队列的方式保证来保证不会有大量的线程对数据库一次性进行读写,从而避免失效时大量的并发请求落到底层存储系统上。不适用高并发情况 - 设置过期标志更新缓存:
记录缓存数据是否过期(设置提前量),如果过期会触发通知另外的线程在后台去更新实际key的缓存。 - 将缓存失效时间分散开:
比如我们可以在原有的失效时间基础上增加一个随机值,比如1-5分钟随机,这样每一个缓存的过期时间的重复率就会降低,就很难引发集体失效的事件。
3.4 分布式锁
随着业务发展的需要,原单体单机部署的系统被演化成分布式集群系统后,由于分布式系统多线程、多进程并且分布在不同机器上,这将使原单机部署情况下的并发控制锁策略失效,单纯的Java API并不能提供分布式锁的能力。为了解决这个问题就需要一种跨JVM的互斥机制来控制共享资源的访问,这就是分布式锁要解决的问题!
使用redis实现分布式锁
-
使用setnx上锁,通过del释放锁
-
锁一直没有释放,设置key过期时间,自动释放
-
上锁的时候同时设置过期时间(防止上锁之后突然出现异常,无法设置过期时间了)
编写代码实现redis的分布式锁:
@GetMapping("testLockLua")
public void testLockLua() {
//1 声明一个uuid ,将做为一个value 放入我们的key所对应的值中
String uuid = UUID.randomUUID().toString();
//2 定义一个锁:lua 脚本可以使用同一把锁,来实现删除!
String skuId = "25"; // 访问skuId 为25号的商品 100008348542
String locKey = "lock:" + skuId; // 锁住的是每个商品的数据
// 3 获取锁
Boolean lock = redisTemplate.opsForValue().setIfAbsent(locKey, uuid, 3, TimeUnit.SECONDS);
// 第一种: lock 与过期时间中间不写任何的代码。
// redisTemplate.expire("lock",10, TimeUnit.SECONDS);//设置过期时间
// 如果true
if (lock) {
// 执行的业务逻辑开始
// 获取缓存中的num 数据
Object value = redisTemplate.opsForValue().get("num");
// 如果是空直接返回
if (StringUtils.isEmpty(value)) {
return;
}
// 不是空 如果说在这出现了异常! 那么delete 就删除失败! 也就是说锁永远存在!
int num = Integer.parseInt(value + "");
// 使num 每次+1 放入缓存
redisTemplate.opsForValue().set("num", String.valueOf(++num));
/*使用lua脚本来锁*/
// 定义lua 脚本
String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";
// 使用redis执行lua执行
DefaultRedisScript<Long> redisScript = new DefaultRedisScript<>();
redisScript.setScriptText(script);
// 设置一下返回值类型 为Long
// 因为删除判断的时候,返回的0,给其封装为数据类型。如果不封装那么默认返回String 类型,
// 那么返回字符串与0 会有发生错误。
redisScript.setResultType(Long.class);
// 第一个要是script 脚本 ,第二个需要判断的key,第三个就是key所对应的值。
redisTemplate.execute(redisScript, Arrays.asList(locKey), uuid);
} else {
// 其他线程等待
try {
// 睡眠
Thread.sleep(1000);
// 睡醒了之后,调用方法。
testLockLua();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
代码分析:
-
加锁,使用uuid判断只能删除自己的锁
// 1. 从redis中获取锁,set k1 v1 px 20000 nx String uuid = UUID.randomUUID().toString(); Boolean lock = this.redisTemplate.opsForValue() .setIfAbsent("lock", uuid, 2, TimeUnit.SECONDS);
-
使用lua释放锁,保证删除锁和释放锁的原子性
// 2. 释放锁 del String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end"; // 设置lua脚本返回的数据类型 DefaultRedisScript<Long> redisScript = new DefaultRedisScript<>(); // 设置lua脚本返回类型为Long redisScript.setResultType(Long.class); redisScript.setScriptText(script); redisTemplate.execute(redisScript, Arrays.asList("lock"),uuid);
为了确保分布式锁可用,我们至少要确保锁的实现同时满足以下四个条件:
- 互斥性。在任意时刻,只有一个客户端能持有锁。
- 不会发生死锁。即使有一个客户端在持有锁的期间崩溃而没有主动解锁,也能保证后续其他客户端能加锁。
- 解铃还须系铃人。加锁和解锁必须是同一个客户端,客户端自己不能把别人加的锁给解了。
- 加锁和解锁必须具有原子性。
以上是关于Redis学习总结(下)——哨兵模式集群应用问题解决的主要内容,如果未能解决你的问题,请参考以下文章