mysql是如何实现可重复读的？

Posted 2023-05-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了mysql是如何实现可重复读的？相关的知识，希望对你有一定的参考价值。

参考技术A

一个事务要更新一行，如果刚好有另外一个事务拥有这一行的行锁，会被锁住，进入等待状态。既然进入了等待状态，那么等到这个事务自己获取到行锁要更新数据的时候，它读到的值又是什么呢?

可重复读隔离级别下，事务在启动的时候就“拍了个整个库的快照”。如果一个库有100G，那么我启动一个事务，mysql就要拷⻉100G的数据出来，这个过程得多慢啊。但是平时事务执行起来却是非常快的。不是全部拷贝出来那是怎么实现的呢?

InnoDB里面每个事务有一个唯一的事务ID，叫作transaction id。它是在事务开始的时候向InnoDB的事务系统申请的，是按申请顺序严格递增的。

而每行数据也都是有多个版本的。每次事务更新数据的时候，都会生成一个新的数据版本，并且把transaction id赋值给这个数据版本的事务ID，记为row trx_id。同时，旧的数据版本要保留，并且在新的数据版本中，能够有信息可以直接拿到它。

数据表中的一行记录，其实可能有多个版本(row)，每个版本有自己的row trx_id。

图中虚线框里是同一行数据的4个版本，当前最新版本是V4，k的值是22，它是被transaction id 为25的事务更新的，因此它的row trx_id也是25。语句更新会生成undo log(回滚日志)，图中的三个虚线箭头，就是undo log。

按照可重复读的定义，一个事务启动的时候，能够看到所有已经提交的事务结果。但是之后，这个事务执行期间，其他事务的更新对它不可⻅。

一个事务只需要在启动的时候声明说，“以我启动的时刻为准，如果一个数据版本是在我启动之前生成的，就认;如果是我启动以后才生成的，我就不认，我必须要找到它的上一个版本”。

如果“上一个版本”也不可⻅，那就得继续往前找。如果是这个事务自己更新的数据，它自己还是要认的。

在实现上， InnoDB为每个事务构造了一个数组，用来保存这个事务启动瞬间，当前正在“活跃”的所有事务ID。“活跃”指的就是，启动了但还没提交。数组里面事务ID的最小值记为低水位，当前系统里面已经创建过的事务ID的最大值加1记为高水位。这个视图数组和高水位，就组成了当前事务的一致性视图(read-view)。而数据版本的可⻅性规则，就是基于数据的row trx_id和这个一致性视图的对比结果得到的。

InnoDB利用了“所有数据都有多个版本”的这个特性，实现了“秒级创建快照”的能力。

回到我们最开始的表格，看看最后执行的结果是多少。做如下假设:

事务A的视图数组就是[99,100], 事务B的视图数组是[99,100,101], 事务C的视图数组是[99,100,101,102]。为了简化分析，我先把其他干扰语句去掉，只画出跟事务A查询逻辑有关的操作:

第一个有效更新是事务C，把数据从(1,1)改成了(1,2)。这时候，这个数据的最新版本的row trx_id是102，而90这个版本已经成为了历史版本。第二个有效更新是事务B，把数据从(1,2)改成了(1,3)。这时候，这个数据的最新版本(即row trx_id)是101，而102又成为了历史版本。

事务B的update语句，如果按照一致性读，好像结果不对哦?

事务B的视图数组是先生成的，之后事务C才提交，不是应该看不⻅(1,2)吗，怎么能算出(1,3)来?

事务B在更新之前查询一次数据，这个查询返回的k的值确实是1。但是，当它要去更新数据的时候，就不能再在历史版本上更新了，否则事务C的更新就丢失了。因此，事务B此时的set k=k+1是在(1,2)的基础上进行的操作。所以，这里就用到了这样一条规则:更新数据都是先读后写的，而这个读，只能读当前的值，称为 “当前读” ( current read )。

在更新的时候，当前读拿到的数据是(1,2)，更新后生成了新版本的数据(1,3)，这个新版本的row trx_id是101。

所以，在执行事务B查询语句的时候，一看自己的版本号是101，最新数据的版本号也是101，是自己的更新，可以直接使用，所以查询得到的k的值是3。

select语句如果加锁，也是当前读。

如果把事务A的查询语句select * from t where id=1修改一下，加上lock in share mode 或 for update，也都可以读到版本号是101的数据，返回的k的值是3。下面这两个select语句，就是分别加了读锁(S锁，共享锁)和写锁(X锁，排他锁)。

事务C’的不同是，更新后并没有⻢上提交，在它提交前，事务B的更新语句先发起了。前面说过了，虽然事务C’还没提交，但是(1,2)这个版本也已经生成了，并且是当前的最新版本。那么，事务B的更新语句会怎么处理呢?

两阶段锁协议，事务C’没提交，也就是说(1,2)这个版本上的写锁还没释放。而事务B是当前读，必须要读最新版本，而且必须加锁，因此就被锁住了，必须等到事务C’释放这个锁，才能继续它的当前读。

回到最初的问题，事务的可重复读的能力是怎么实现的?

MySQL 到底是如何做到多版本并发的？

之前的文章简单的介绍了 MySQL 的事务隔离级别，它们分别是：读未提交、读已提交、可重复读、串行化。这篇文章我们就来探索一下 MySQL 事务隔离级别的底层原理。

多版本并发控制

我们知道，读未提交会造成脏读、幻读、不可重复读，读已提交会造成幻读、不可重复读，可重复读可能会有幻读，和串行化就不会有这些问题。

那 InnoDB 到底是怎么解决这些问题的呢？又或者，你有没有想过造成脏读、幻读、不可重复读的底层最根本的原因是什么呢？

这就是今天要聊的主角——MVCC（Multi-Version Concurrent Controll），也叫多版本并发控制。InnoDB 是一个支持多事务并发的存储引擎，它能让数据库中的读-写操作能够并发的进行，避免由于加锁而导致读阻塞。

正是由于有了 MVCC，在事务B更新 id=1 的数据时，事务A读取 id=1 的操作才不会被阻塞。而不阻塞的背后则是不加锁的一致性读。那什么是一致性读？

一致性读

简单来讲，当进行 query 查询时，InnoDB 会对当前时间点的数据库创建一个快照，快照创建完之后，当前查询就只能感知到快照创建之前提交的事务改动，在快照创建之后再提交的事务就不会被当前query感知。

当然，当前事务自己更新的数据是个例外。当前事务修改过的行，再次读取时是能够拿到最新的数据的。而对于其他行，读取的仍然是打快照时的版本。

而这个快照就是 InnoDB 实现事务隔离级别的关键。

在读已提交（Read Committed）的隔离级别下，事务中的每一次的一致性读都会重新生成快照。而在可重复读（Repeatable Read）的隔离级别下，事务中所有的一致性读都只会使用第一次一致性读生成的快照。

这也就是为什么，在上图中事务B提交了事务之后，读已提交的隔离级别下能看到改动，可重复读的隔离级别看不到改动，本质上就是因为读已提交又重新生成了快照。

在读已提交、可重复读的隔离级别下，SELECT 语句都会默认走一致性读，并且在一致性读的场景下，不会加任何的锁。其他的修改操作也可以同步的进行，大大的提升了 MySQL 的性能。而这也就是MVCC多版本并发控制的实现原理。这种读还有个名字叫 快照读 。

那如果我在事务中想要立马看到其他的事务的提交怎么办？有两种方法：

使用读已提交隔离级别
对 SELECT 加锁，共享锁和排他锁都行，再具体点就是 FOR SHARE 和 FOR UPDATE

当然，第二种方法如果对应的记录加的锁和 SELECT 加的锁互斥，SELECT 就会被阻塞，这种读也有个别名叫 当前读。

了解完上面的解释，下次再有人问你 MVCC 是怎么实现的，你就能从一致性读（快照读）和当前读来进行解释了，并且把不同的隔离级别下对一致性读快照的刷新机制也讲清楚。

但是我觉得还不够，应该还需要继续往下深入了解。因为我们只知道个快照，其底层到底是怎么实现的呢？其实还是不知道的。

深入一致性读原理

从常理来说，不同的一致性读可能会读到不同版本的数据，那么这些肯定都存储在 MySQL 中的，否则不可能被读取到。是的，这些数据都存储在 InnoDB 的表空间内，再具体点这些数据存储在 Undo 表空间内。

InnoDB 内实现 MVCC 的关键其实就是三个字段，并且数据表中每一行都有这三个字段：

DB_TRX_ID 该字段有6个字节，用于存储上次插入或者更新该行数据的事务的唯一标识。你可能会问，只有插入和更新吗？那删除呢？其实在InnoDB的内部，*删除*其实就是更新操作，只不过会更新该行中一个特定的比标志位，将其标记为删除。
DB_ROLL_PTR 该字段有7个字节，你可以叫它回滚指针，该指针指向了存储在回滚段中的一条具体的Undo Log。即使当前这行数据被更新了，我们同样的可以通过回滚指针，拿到更新之前的历史版本数据。
DB_ROW_ID 该字段有6个字节，InnoDB给该行数据的唯一标识，该唯一标识会在有新数据插入的时候单调递增，就跟我们平时定义表结构的时候定义的primary key的时候单调递增是一样的。DB_ROW_ID会被包含在聚簇索引中，其他的非聚簇索引则不会包含。

通过 DB_ROLL_PTR 可以拿到最新的一条 Undo Log，然后每一个对应的 Undo Log 指向其上一个 Undo Log，这样一来，不同的版本就可以连接起来形成链表，不同的事务根据需求和规则，从链表中选择不同的版本进行读取，从而实现多版本的并发控制，就像这样：

可能有人对 Undo Log 没啥概念，记住这个就好了：

Undo Log 的组成

可能也有人会有疑问，说 Undo Log 不是应该在事务提交之后就被删除了吗？为什么我通过 MVCC 还能查到之前的数据呢？

实际上在 InnoDB 中，Undo Log 被分成了两部分，分别是

Insert Undo Log
Update Undo Log

对于 Insert Undo Log 来说，它只会用于在事务中发生错误的回滚，因为一旦事务提交了，Insert Undo Log 就完全没用了，所以在事务提交之后 Insert Undo Log 就会被删除。

而 Update Undo Log 不同，其可以用于 MVCC 的一致性读，为不同版本的请求提供数据源。那这样一来，是不是 Update Undo Log 就完全没法移除了？因为你不清楚啥时候就会有个一致性读请求过来，然后导致其占用的空间越来越大。

对，但也不完全对。

一致性读本质上是要处理多事务并发时，需要按需给不同的事务以不同的数据版本，所以如果当前没有事务存在了，Update Undo Log 就可以被干掉了。

EOF

本篇文章就先到这里，至于怎么 Update Undo Log 怎么被干掉的，之后有空专门写篇文章来聊聊。

以上是关于mysql是如何实现可重复读的？的主要内容，如果未能解决你的问题，请参考以下文章

三连问：MySQL如何实现可重复读又为什么会出现幻读是否解决了幻读问题？

MySQL可重复读防止幻读

Mysql在可重复读事务隔离级别下怎么解决幻读的

Mysql可重复读原理

mysql 解决可提交读、可重复读、幻读

mysql的四种隔离级别