Mysql 回表

Posted 天道酬勤-明天会更好

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Mysql 回表相关的知识,希望对你有一定的参考价值。

回表

mysql回表指的是在InnoDB存储引擎下,二级索引查询到的索引列,如果需要查找所有列的数据,则需要到主键索引里面去取出数据。这个过程就称为回表。因为行的数据都是存在主键B+tree的叶子节点里面,二级索引的B+树叶子节点都是存放的(索引列,主键)。

例如:

有一张用户表 id(主键), username (二级索引),age

id是主键索引 username是二级索引,当我们通过二级索引查询返回记录时,例如:

select * from t where username = "bobo";

① 通过二级索引找到 bobo记录和主键id

② 在通过主键id去主键索引B+tree找到行记录

这里就会出现一个问题,当我们的用户表有150w条记录时, 有时候查询并没有走索引,而是通过All全盘的扫描。这是为什么了?下面我们就简单的介绍一下全盘扫描和走索引的IO。

假如我们一行数据的大小是100字节, bobo的有50W行数据. 假设用户表的B+树高度=3

通过username索引的话:每次回表需要3次IO,50w记录需要回表50w次。那么IO = 50W * 3

通过全盘扫描:一个页可以存放16k / 100字节 = 16 * 1024 / 100 = 163条记录 全盘扫描则需要 150w / 163 = 0.92W 差不多是1w次IO,

通过上面对比,肯定全盘要效率高一些,这就是为什么有时候我们建立了索引,但是通过explain检测的时候我们的sql没有走索引。因为回表的IO开销还是比较大的。

MRR

MRR 简单的来说就是上面的回表更加效率了,如果需要50w次的回表,效率太慢了,这时候Mysql就把需要回表的主键id进行排序,然后排序过后的id再到主键B+树去取数据库,这样就大大的增加了效率。 我们可以通过 explain中的Extra列中的Using MRR来判断是否使用了MRR.

mysql回表

回表

我们知道当mysql的索引并不能包含查询语句所需要的所有字段时,就需要拿到二级索引查找出的id去到聚簇索引树上拿到需要的字段。这个操作也就是回表。

也就是说回表操作时:mysql会采用访问二级索引+聚簇索引的方式去完成这条查询。

比如:

现在有这样一张表

表的索引如下:index_order_id_product_name(order_id,product_name)

若执行下面这条语句,就可以使用到覆盖索引。即只访问index_order_id_product_name这一棵索引树,就可以拿到查询的所有需要的数据。

 SELECT order_id,product_name FROM `test_orderdetail` where order_id = 100; 

但是如果想要多查询一个字段:cnt,那么mysql就需要先查询二级索引,拿到id去聚簇索引中拿到对应的cnt。因为索引index_order_id_product_name存放的数据是order_id,product_name和id。

 SELECT order_id,product_name,cnt FROM `test_orderdetail` where order_id = 100; 

索引index_order_id_product_name对应的索引树是首先按照order_id排序的,在order_id相等的情况下又会按照product_name排序。换句话说:我们所需要的order_id=100的数据,集中分布在一个或多个数据页上,即使不在一个数据页上,它们之间也有相互关联的指针。mysql可以只读取少量的数据页就能拿到所有需要的数据。即:顺序I/O。

在第二条sql中,由于索引index_order_id_product_name并不能覆盖所有需要的字段,mysql需要根据在二级索引树上拿到的id再去聚簇索引树中查找。注意:索引index_order_id_product_name是按照order_id和product_name排序的,他们的id可能并不相邻,而聚簇索引是通过id排序的。也就是说我们通过二级索引拿到的id可能散乱的分布在各个数据页中,而某个数据页中可能有用数据的仅有一条。mysql想要拿到这些id对应的数据就需要访问很多的数据页。即随机I/O。

随机I/O比顺序I/O需要更多的时间。所以回表的代价可能是巨大的。

当需要回表的数据越多,二级索引+回表到聚簇索引查找的代价就越大。而且当需要回表的数量巨大时,mysql会认为全表扫描的性能会比使用二级索引的性能更好,从而放弃使用二级索引。

以上是关于Mysql 回表的主要内容,如果未能解决你的问题,请参考以下文章

阿里三面:MySQL回表的性能伤害有多大?

对线面试官MySQL索引

MySQL ---- 索引类型 & 使用规则 & 回表覆盖索引 & 设计索引考虑因素

MySQL ---- 索引类型 & 使用规则 & 回表覆盖索引 & 设计索引考虑因素

Mysql 回表

MySQL -- 索引相关的一些问题 | 为什么使用B+树结构 | 能存储多少数据 等等