又快又准的sql瓶颈诊断方法
Posted techfix
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了又快又准的sql瓶颈诊断方法相关的知识,希望对你有一定的参考价值。
我们面试经常会被问到数据库优化这块,我们很多时候能回答一些大而化之的策略,例如主从分离,分表分库之类,添加合理的索引,那继续追问,用的什么中间件主从分离,用的什么策略进行分表分库,什么是合理的索引,加了索引表扫描少了多少行,什么情况下索引会失效,好吧,笑容逐凝固,不知如何作答了,本篇就优先围绕sql查询优化本身来聊这个事情;
首先用一张图来解释查询过程:
简单来说,可以概括成为如下五步:
1.客户端发送一个查询给服务器。
2.服务器先检查查询缓存,如果命中,则直接返回缓存中的结果。如果没有命中,则进入下一阶段(解析器)。
3.服务器由解析器检查sql语法是否正确,然后由预处理器检查sql中的表和字段是否存在,最后由查询器生成执行计划。这一步很耗资源。
4.mysql根据优化器生成的执行计划,调用存储引擎的API来执行查询。
5.将结果返回给客户端。
性能浪费在哪里:
无索引,索引失效导致的慢查询,这是两个事情,不要简单认为添加了索引就万事大吉;
2.锁等待;
3.不恰当不符合规范的索引语句;
接下来说刚提到的执行计划:
执行计划通常是开发者优化SQL语句的第一步。MySQL在解析SQL语句时,会生成多套执行方案,然后内部会进行一个成本的计算,然后通过优化器选择一个最优的方案执行,然后根据这个方案会生成一个执行计划。开发者通过查看SQL语句的执行计划,可以直观的了解到MySQL是如何解析执行这条SQL语句的,然后再针对性的进行优化。
如何查看SQL语句的执行计划?
语法:explain select语句;
举例:explain SELECT 1;
EXPLAIN列的解释
table
显示这一行的数据是关于哪张表的
type
这是重要的列,显示连接使用了何种类型。从最好到最差的连接类型为const、eq_reg、ref、range、indexhe和ALL
说明:不同连接类型的解释(按照效率高低的顺序排序)
system:表只有一行:system表。这是const连接类型的特殊情况。
const :表中的一个记录的最大值能够匹配这个查询(索引可以是主键或惟一索引)。因为只有一行,这个值实际就是常数,因为MYSQL先读这个值然后把它当做常数来对待。
eq_ref:在连接中,MYSQL在查询时,从前面的表中,对每一个记录的联合都从表中读取一个记录,它在查询使用了索引为主键或惟一键的全部时使用。
ref:这个连接类型只有在查询使用了不是惟一或主键的键或者是这些类型的部分(比如,利用最左边前缀)时发生。对于之前的表的每一个行联合,全部记录都将从表中读出。这个类型严重依赖于根据索引匹配的记录多少—越少越好。
range:这个连接类型使用索引返回一个范围中的行,比如使用>或<查找东西时发生的情况。
index:这个连接类型对前面的表中的每一个记录联合进行完全扫描(比ALL更好,因为索引一般小于表数据)。
ALL:这个连接类型对于前面的每一个记录联合进行完全扫描,这一般比较糟糕,应该尽量避免。
possible_keys
显示可能应用在这张表中的索引。如果为空,没有可能的索引。可以为相关的域从WHERE语句中选择一个合适的语句
key
实际使用的索引。如果为NULL,则没有使用索引。很少的情况下,MYSQL会选择优化不足的索引。这种情况下,可以在SELECT语句中使用USE INDEX(indexname)来强制使用一个索引或者用IGNORE INDEX(indexname)来强制MYSQL忽略索引
key_len
使用的索引的长度。在不损失精确性的情况下,长度越短越好
ref
显示索引的哪一列被使用了
rows
MYSQL认为必须检查的用来返回请求数据的行数,这一行非常重要
extra
Distinct :一旦mysql找到了与行相联合匹配的行,就不再搜索了。
Not exists :mysql优化了LEFT JOIN,一旦它找到了匹配LEFT JOIN标准的行,就不再搜索了。
Range checked for each Record:没有找到理想的索引,因此对从前面表中来的每一个行组合,mysql检查使用哪个索引,并用它来从表中返回行。这是使用索引的最慢的连接之一。
Using filesort :看到这个的时候,查询就需要优化了。mysql需要进行额外的步骤来发现如何对返回的行排序。它根据连接类型以及存储排序键值和匹配条件的全部行的行指针来排序全部行。
Using index :列数据是从仅仅使用了索引中的信息而没有读取实际的行动的表返回的,这发生在对表的全部的请求列都是同一个索引的部分的时候。
Using temporary :看到这个的时候,查询需要优化了。这里,mysql需要创建一个临时表来存储结果,这通常发生在对不同的列集进行ORDER BY上,而不是GROUP BY上。
Where used :使用了WHERE从句来限制哪些行将与下一张表匹配或者是返回给用户。如果不想返回表中的全部行,并且连接类型ALL或index,这就会发生,或者是查询有问题。
上面的文字很多,很多概念的东西有点难以读懂,接下来我们举一些实际的例子来说明概念;
新建一张简单的表,塞10000条左右的数据,表结构如下:
顺带贴一下我的造数过程,数据量自动改变i的值即可:
BEGIN
DECLARE i INT;
set i=3000;
while i<10000 do
INSERT INTO user values (i,CONCAT(‘cctester‘,i),‘123456‘,CONCAT(‘cc‘,i));
SET i=i+1;
END WHILE;
END
先做一个简单的对比,在name上面添加了索引,而description未添加:
我们可以看到时间的差异,在一万条基础数据的情况下,未添加索引的时间多了20倍,那我们继续分析,这多出来的20倍时间在做什么呢?
我们看执行计划的对比分析:
我们通过对比可以看出第二条sql的rows遍历了9984行,做了一次全表扫描,而添加索引的做了一次常量查询,取了一行;
这么说是不是比较清晰,相对直观的了解到时间消耗点,那我们仔细看一下执行计划,为什么我说的那个未添加索引的extra列显示了using index呢,这是我之前留的一个破绽,接下来我们引出另外一个概念多列索引的最左前缀规则;
多列索引通俗来讲就是一个索引可以定义在表的多个列上,为什么使用多列索引呢?
以多列索引(a,b,c)为例
建立这样的索引相当于建立了索引a、ab、abc三个索引。一个索引顶三个索引当然是好事,毕竟每多一个索引,都会增加写操作的开销和磁盘空间的开销。
同样的有联合索引(a,b,c),如果有如下的sql: select a,b,c from table where a=xxx and b = xxx。那么MySQL可以直接通过遍历索引取得数据,而无需读表,这减少了很多的随机io操作。减少io操作,特别的随机io其实是dba主要的优化策略。所以,在真正的实际应用中,覆盖索引是主要的提升性能的优化手段之一
通过索引筛选出的数据越少。有1000W条数据的表,有如下sql:select * from table where a = 1 and b =2 and c = 3,假设每个条件可以筛选出10%的数据,如果只有单值索引,那么通过该索引能筛选出1000W*10%=100w 条数据,然后再回表从100w条数据中找到符合b=2 and c= 3的数据,然后再排序,再分页;如果是复合索引,通过索引筛选出1000w *10% *10% *10%=1w,然后再排序、分页,哪个更高效,很容易辨别出来;
那最左前缀又是啥意思呢,还是用通俗的解释就是必须用到索引的第一个字段。
多列索引(a,b,c)查询组合可以使a,ab,abc,ac,但直接使用bc,b,c就会失效;
回到上面的例子,我在name,password,description上建立了联合索引,但直接使用deccrption列并没有回行数据,并不符合最左前缀的规则,所以等于索引没有使用;
所以索引以及使用的合理性是非常重要的,文章的最后,更多交流关注公众号:猿桌派
以上是关于又快又准的sql瓶颈诊断方法的主要内容,如果未能解决你的问题,请参考以下文章