Redis为什么这么快以及持久化机制

Posted 2021-03-19 泉水姐姐。

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Redis为什么这么快以及持久化机制相关的知识，希望对你有一定的参考价值。

1、首先我们谈一下为什么Redis快：

一、 Redis是纯内存数据库，一般都是简单的存取操作，线程占用的时间很多，时间的花费主要集中在IO上，所以读取速度快。

二、再说一下IO，Redis使用的是非阻塞IO，IO多路复用，使用了单线程来轮询描述符，将数据库的开、关、读、写都转换成了事件，减少了线程切换时上下文的切换和竞争。

多路 I/O 复用模型是利用select、poll、epoll可以同时监察多个流的 I/O 事件的能力，在空闲的时候，会把当前线程阻塞掉，当有一个或多个流有I/O事件时，就从阻塞态中唤醒，于是程序就会轮询一遍所有的流（epoll是只轮询那些真正发出了事件的流），并且只依次顺序的处理就绪的流，这种做法就避免了大量的无用操作。这里“多路”指的是多个网络连接，“复用”指的是复用同一个线程。采用多路 I/O 复用技术可以让单个线程高效的处理多个连接请求（尽量减少网络IO的时间消耗），且Redis在内存中操作数据的速度非常快（内存内的操作不会成为这里的性能瓶颈），主要以上两点造就了Redis具有很高的吞吐量。

select和epoll的区别： 1、select支持的文件描述符数量太小了，默认是1024，而epoll无限制；

2、当有A B C D4个流时，比如甲连接了A。阻塞模式，一直处理A知道完成/阻塞；select模式，甲请求后无请求事件，进入阻塞，一旦甲又来请求，开始轮询比如D、B、C、A，找到A了处理，问题是如果有500个呢？所以会产生惊群问题；epoll是在同时保持ABCD连接的同时，让甲的请求事件驱动A，直接找到A连接开始处理，避免轮询，问题是如果同时AC2个连接的请求都到了呢？redis采用线性事件串型化，让AC进入队列，然后异步消费队列进行处理，

三、 Redis采用了单线程的模型，保证了每个操作的原子性，也减少了线程的上下文切换和竞争。

四、另外，数据结构也帮了不少忙，Redis全程使用hash结构，读取速度快，还有一些特殊的数据结构，对数据存储进行了优化，如压缩表，对短数据进行压缩存储，再如，跳表，使用有序的数据结构加快读取的速度。

五、还有一点，Redis采用自己实现的事件分离器，效率比较高，内部采用非阻塞的执行方式，吞吐能力比较大。

上述讲到Redis是基于内存操作的，那服务器宕机了，那不是全完了，所以Redis有自己的持久化操作，下面我们来讲讲Redis的持久化。

2、Redis的持久化

1、RDB机制：

原理：RDB是默认开启的，会按照配置的指定时间将内存中的数据快照到磁盘中，创建一个dump.rdb文件，redis启动时再恢复到内存中。redis会单独创建fork()一个子进程，将父进程的数据复制到子进程的内存中，然后由子进程写入到临时文件，再用这个临时文件替换上次的快照文件，然后子进程退出，释放内存。

注意：每次快照持久化都会讲主进程的数据复制一遍，会导致内存开销加倍，若此时内存不足，则会阻塞服务器运行，直到复制结束释放内存；如果数据量过大，而且写操作频繁，必然会引起大量的磁盘操作，严重影响性能，并且最后一次持久化会消失。（顺便一提，影响Redis的性能主要是磁盘操作）

2、AOF机制：

原理：以日志的形式记录每个写操作（读操作不记录），只需追加文件但不可改写文件，redis启动时会根据日志从头到尾全部加载到内存中。

注意：因为AOF采用追加的方式，所以文件会越来越大，针对这个问题，新增了重写机制，就是当日志文件大到一定程度的时候，会fork出一条新进程来遍历进程内存中的数据，每条记录对应一条set语句，写到临时文件中，然后替换旧的日志文件，默认触发是当AOF文件大小是上次重启大小的一倍且当文件大于64M的时候。

3、二者优缺点：

RDB存在哪些优势呢？

1). 一旦采用该方式，那么你的整个Redis数据库将只包含一个文件，这对于文件备份而言是非常完美的。比如，你可能打算每个小时归档一次最近24小时的数据，同时还要每天归档一次最近30天的数据。通过这样的备份策略，一旦系统出现灾难性故障，我们可以非常容易的进行恢复。

2). 对于灾难恢复而言，RDB是非常不错的选择。因为我们可以非常轻松的将一个单独的文件压缩后再转移到其它存储介质上。

3). 性能最大化。对于Redis的服务进程而言，在开始持久化时，它唯一需要做的只是fork出子进程，之后再由子进程完成这些持久化的工作，这样就可以极大的避免服务进程执行IO操作了。

4). 相比于AOF机制，如果数据集很大，RDB的启动效率会更高。

RDB又存在哪些劣势呢？

1). 如果你想保证数据的高可用性，即最大限度的避免数据丢失，那么RDB将不是一个很好的选择。因为系统一旦在定时持久化之前出现宕机现象，此前没有来得及写入磁盘的数据都将丢失。

2). 由于RDB是通过fork子进程来协助完成数据持久化工作的，因此，如果当数据集较大时，可能会导致整个服务器停止服务几百毫秒，甚至是1秒钟。

AOF的优势有哪些呢？

1). 该机制可以带来更高的数据安全性，即数据持久性。Redis中提供了3中同步策略，即每秒同步、每修改同步和不同步。事实上，每秒同步也是异步完成的，其效率也是非常高的，所差的是一旦系统出现宕机现象，那么这一秒钟之内修改的数据将会丢失。而每修改同步，我们可以将其视为同步持久化，即每次发生的数据变化都会被立即记录到磁盘中。可以预见，这种方式在效率上是最低的。至于无同步，无需多言，我想大家都能正确的理解它。

2). 由于该机制对日志文件的写入操作采用的是append模式，因此在写入过程中即使出现宕机现象，也不会破坏日志文件中已经存在的内容。然而如果我们本次操作只是写入了一半数据就出现了系统崩溃问题，不用担心，在Redis下一次启动之前，我们可以通过redis-check-aof工具来帮助我们解决数据一致性的问题。

3). 如果日志过大，Redis可以自动启用rewrite机制。即Redis以append模式不断的将修改数据写入到老的磁盘文件中，同时Redis还会创建一个新的文件用于记录此期间有哪些修改命令被执行。因此在进行rewrite切换时可以更好的保证数据安全性。

4). AOF包含一个格式清晰、易于理解的日志文件用于记录所有的修改操作。事实上，我们也可以通过该文件完成数据的重建。

AOF的劣势有哪些呢？

1). 对于相同数量的数据集而言，AOF文件通常要大于RDB文件。RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。

2). 根据同步策略的不同，AOF在运行效率上往往会慢于RDB。总之，每秒同步策略的效率是比较高的，同步禁用策略的效率和RDB一样高效。

二者选择的标准，就是看系统是愿意牺牲一些性能，换取更高的缓存一致性（aof），还是愿意写操作频繁的时候，不启用备份来换取更高的性能，待手动运行save的时候，再做备份（rdb）。rdb这个就更有些 eventually consistent的意思了。