简述mysql最左原则
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简述mysql最左原则相关的知识,希望对你有一定的参考价值。
参考技术A 最左原则顾名思义就是从最左边开始匹配的原则,mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,索引可以任意顺序,mysql的查询优化器会帮你优化成索引可以识别的形式,其针对的是组合索引(又名联合索引)。假设我们现在对A、B、C三个字段建立组合索引,来剖析什么时候会用到索引。
A=nickName, B=groupId, C=sign。
首先来看下我的表结构和索引如图1-2,在这里就不作过多赘述。
我先来介绍下图3中sql在expalin执行计划后得一些参数。
id: 为选择标识符。
select_type: 表示查询的类型,SIMPLE表示简单的select,没有union和子查询。
table: 输出结果集的表。
partitions: 匹配的分区。
type: 表示表的连接类型,range是指给定范围内的检索,比如 in(xx, xx) 或者 between。该类最好的时候是const(即表示为通过索引一次就找到了),最差的时候是all(需要遍历全表)。
possible_keys: 表示查询时,可能使用的索引。(显示可能应用在这张表中的索引,不一定能应用到。)
key: 表示实际使用的索引。
key_len: 索引字段的长度。
ref: 列与索引的比较。
rows: 找到所需的记录所需要读取的行数。
filtered: 按表条件过滤的行百分比。
Extra: 执行情况的描述和说明。
由图3的key字段看出A、B、C下,我们使用上了nickName_id_sign联合索引,rows字段看出,读取了1行。
那我们来看看B、C、A与C、B、A呢?
图4-5看出B、C、A与C、B、A也用到了索引,为什么呢?
这是因为当客户端把SQL语句传送到服务器后,服务器进程会对该语句进行解析。这个解析的工作是在服务器端所进行的,解析动作又可分为很多小动作。其中最重要的一步就是确定最佳执行计划。服务器进程会根据一定的规则,对这条语句进行优化。(在执行计划开始之前会有一步查询转换,如:视图合并、子查询解嵌套、谓语前推及物化视图重写查询等。【此处不理解可以忽略,大概可以理解为优化器寻找最低成本的执行计划】)。最终确定可能的最低成本的执行计划。当服务器进程的优化器确定这条查询语句的最佳执行计划后, 就会将这条SQL语句与执行计划保存到数据高速缓存,提高SQL语句处理效率。
在mysql中会使用Index Merge intersection algorithm算法来调整条件子句顺序(可以理解为上面所表述的 寻找最低成本的执行计划 ),详情请看 官方文档 。
由图6可以看出A、B组合也使用到了索引,看到type值为ref(非唯一性索引扫描,返回匹配某个单独值的所有行,本质上也是一种索引访问,它返回所有匹配某个单独值的行,它可能会找到多个符合条件的行,所以他应该属于查找和扫描的混合体。),再看rows,为40条,比A、B、C下略多,但还好,可以接受。
由图7可以看出A、C组合也使用到了索引,可以看到key_len索引中使用的字节数比A、B、C与A、B下小得多,再看rows,为七万多条, filtered 的过滤条件仅为百分之十,这是因为A、B、C组合索引覆盖了(A)、(A,B)、(A,B,C)三个索引 点击查看官方文档 ,而A、C组合用到了A索引,我们来看图8只有A条件nickName下与图7的rows参数都一致。filtered参数不一致是因为where的后置条件决定其过滤比例的。
图9可看出B、C组合下没有用到索引,type类型为ALL遍历整表去寻找记录, possible_keys与key 都为空,rows几乎为全表记录。这是因为组合索引的最左匹配原则,mysql会根据A来确定下一步的搜索方向,当没有A时,就只能去全记录去寻找。
有什么问题请留言,大家一起探讨学习😊😊😊。
Mysql中联合索引的最左匹配原则(百度)
创建联合索引时列的选择原则
- 经常用的列优先(最左匹配原则)
- 离散度高的列优先(离散度高原则)
- 宽度小的列优先(最少空间原则)
在Mysql建立多列索引(联合索引)有最左前缀的原则,即最左优先。
如果我们建立了一个2列的联合索引(col1,col2),实际上已经建立了两个联合索引(col1)、(col1,col2);
如果有一个3列索引(col1,col2,col3),实际上已经建立了三个联合索引(col1)、(col1,col2)、(col1,col2,col3)。
解释
1、b+树的数据项是复合的数据结构,比如(name,age,sex)的时候,b+树是按照从左到右的顺序来建立搜索树的,比如当(张三,20,F)这样的数据来检索的时候,b+树会优先比较name来确定下一步的所搜方向,如果name相同再依次比较age和sex,最后得到检索的数据;但当(20,F)这样的没有name的数据来的时候,b+树就不知道第一步该查哪个节点,因为建立搜索树的时候name就是第一个比较因子,必须要先根据name来搜索才能知道下一步去哪里查询。
2、比如当(张三,F)这样的数据来检索时,b+树可以用name来指定搜索方向,但下一个字段age的缺失,所以只能把名字等于张三的数据都找到,然后再匹配性别是F的数据了, 这个是非常重要的性质,即索引的最左匹配特性。(这种情况无法用到联合索引)
mysql里创建联合索引的意义
一个顶三个
建了一个(a,b,c)的复合索引,那么实际等于建了(a),(a,b),(a,b,c)三个索引,因为每多一个索引,都会增加写操作的开销和磁盘空间的开销。对于大量数据的表,这可是不小的开销!
覆盖索引
同样的有复合索引(a,b,c),如果有如下的sql: select a,b,c from table where a=1 and b = 1。那么MySQL可以直接通过遍历索引取得数据,而无需回表,这减少了很多的随机io操作。减少io操作,特别的随机io其实是dba主要的优化策略。所以,在真正的实际应用中,覆盖索引是主要的提升性能的优化手段之一
索引列越多,通过索引筛选出的数据越少
有1000W条数据的表,有如下sql:select * from table where a = 1 and b =2 and c = 3,假设假设每个条件可以筛选出10%的数据,如果只有单值索引,那么通过该索引能筛选出1000W10%=100w 条数据,然后再回表从100w条数据中找到符合b=2 and c= 3的数据,然后再排序,再分页;如果是复合索引,通过索引筛选出1000w 10% 10% 10%=1w,然后再排序、分页,哪个更高效,一眼便知
列的离散性计算:count(distinct col)/ count(col)
例如:
id列一共9列都不重复 9/9 = 1
性别列一共9列只有(男或者女)两列 2/9 约等于0.2
离散性越高选择性越大
以上是关于简述mysql最左原则的主要内容,如果未能解决你的问题,请参考以下文章