5.查询截取分析(含百万测试数据脚本)
Posted weixiaotao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了5.查询截取分析(含百万测试数据脚本)相关的知识,希望对你有一定的参考价值。
1.explain
-----分析----测试中分析优化(初步)
-
观察,至少跑一天,看看生产的慢sql情
-
开启慢日志查询,设置阙值,比如超过5s的就为慢sql,并将他们抓取出来
-
explain + 慢sql分析
-
show profile -----至此初步的sql优化问题基本定位出来
-
.运维经理、DBA 进行sql数据库服务器的参数调优。
2.永远小表驱动大表
类似嵌套循环Nested Loop
for (int i=5;...){ for (int j=1000;...){ } } ==>推荐 =========== for (int i=1000;...){ for (int j=5;...){ } } 优化原则:小表驱动大表,即小的数据集驱动大的数据集 ================= 原理(RBO) ====================== select * from A where id in (select id from B); <=> for select id from B for select * from A where A.id=B.id 当B表的数据集小于A表的数据集时候,用in 优于exists ================================================ select * from A where exists (select 1 from B where B.id =A.id) <=> for select * from A for select * from B where B.id=A.id 当A的数据集小于B的数据集时候,用exists优于in 注意:A表和B表的Id字段应建立索引 【exists】 select ..... from table where exists (subquery); 该语法可以理解为:将主查询的数据,放到子查询中做条件验证,根据验证结果(true或false)来决定主查询的数据结构是否得以保留 提示: 1. exists(subquery) 只返回true或者false,因此子查询中的select * 也可以是select 1或者其他,官方说法是实际执行时候会忽略select清单 2.exists 子查询的实际执行过程可能经过了优化而不是我们理解上的逐条对比,如果担忧效率的问题,可进行实际检验以确定是否有效率的问题 3.exists子查询往往也可以用条件表达式,其他子查询或者join代替,何种最优需要具体问题具体分析
3.order by关键字优化
3.1 ORDER BY子句,尽量使用Index方式排序,避免使用FileSort方式排序
#建表 create table tblA( #id int primary key not null auto_increment, age int, birth timestamp not null ); insert into tblA(age,birth) values(22,now()); insert into tblA(age,birth) values(23,now()); insert into tblA(age,birth) values(24,now()); create index idx_A_ageBirth on tblA(age,birth); select * from tblA; #案例 explain select * from tblA where age > 20 order by age; explain select * from tblA where age > 20 order by age,birth; explain select * from tblA where age > 20 order by birth;#出现Using filesort explain select * from tblA where age > 20 order by birth,age;#出现Using filesort ############### explain select * from tblA order by birth;#出现Using filesort explain select * from tblA where birth > ‘2016-01-20 00:00:00‘ order by birth;#出现Using filesort explain select * from tblA where birth > ‘2016-01-20 00:00:00‘order by age; explain select * from tblA order by age ASC, birth DESC;#出现Using filesort
3.1.1mysql支持二种方式的排序,FileSort和Index,Index效率高。它指MySQL扫描索引本身完成排序。FileSort方式效率较低。 ?
3.1.2 ORDER BY满足两情况,会使用Index方式排序 ? ORDER BY语句使用索引最左前列 ? 使用where子句与OrderBy子句条件列组合满足索引最左前列
3.2 尽可能在索引列上完成排序操作,遵照索引建的最佳左前缀
3.3 如果不在索引列上,filesort有两种算法:mysql就要启动双路排序和单路排序
双路排序: ? MySQL4.1之前是使用双路排序,字面意思是两次扫描磁盘,最终得到数据。 读取行指针和orderby列,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取对应的数据传输 ? 从磁盘取排序字段,在buffer进行排序,再从磁盘取其他字段。 取一批数据,要对磁盘进行两次扫描,众所周知,IO是很耗时的,所以在mysql4.1之后,出现了第二张改进的算法,就是单路排序。
单路排序: ? 从磁盘读取查询需要的所有列,按照orderby列在buffer对它们进行排序,然后扫描排序后的列表进行输出, 它的效率更快一些,避免了第二次读取数据,并且把随机IO变成顺序IO,但是它会使用更多的空间, 因为它把每一行都保存在内存中了。 结论及引申出的问题: ? 由于单路是后出来的,总体而言好过双路 ? 但是用单路有问题:在sort_buffer中,方法B(单路)比方法A(双路)要占用更多的空间,因为方法B是把所有的字段都取出来,所以有可能取出的数据的总大小超出了 sort_buffer的容量,导致每次只能取sort_buffer容量大小的数据,进行排序(创建tmp文件,多路合并),排完在取sort_buffer容量大小,再排.....从而多次IO
本来想省一次IO操作的,反而导致了大量的IO操作,反而得不偿失。
3.4 优化策略
增大sort_buffer_size参数的设置
增大max_length_for_sort_data参数的设置
why:
提高Order by 的速度
-
order by 时 select * 是一个大忌,只query需要的字段,这点非常重要。在这里的影响是: 1.1 当query的字段大小总和小于max_length_for_sort_data 而且排序字段不是TEXT|BLOB类型时候,会用改进后的算法----单路排序, 否则用老算法---多路排序 1.2 两种算法的数据都有可能超出sort_buffer的容量,超出之后,会创建tmp文件进行合并排序,导致多次IO,但是用单路排序算法风险会更大一些,所以要提高sort_buffer_size
-
尝试提高sort_buffer_size 不管用那种算法,提高这个参数都会有提高效率,当然,要根据系统的能力去提高。因为这个参数是针对每个进程的。
3.尝试提高max_length_for_sort_data 提高这个参数,会增加用改进算法的概率。但是如果设的太高,数据总量超出了sort_buffer_size的概率就会增大,明显的症状是 高的磁盘IO活动和低的处理器使用率
3.5 小总结
为排序使用索引 mysql两种排序方式:文件排序或扫描有序索引排序 mysql能为排序或者查询使用相同的索引 key a_b_c(a,b,c) order by 能使用索引最左前缀 ? order by a ? order by a,b ? order by a,b,c ? order by a desc,b desc,c desc
如果where使用索引的最左前缀定义为常量,则order by 能使用索引 where a=const order by b,c where a=const and b=const order by c where a=const order by b,c where a=const and b > const order by b,c
不能使用索引进行排序 order by a asc,b desc,c desc #排序不一致 where g=const order by b,c #丢失a索引 where a=const order by c #丢失b索引 where a=const order by a,d #d不是索引的一部分 where a in (....) order by b,c #对于排序来说,多个相等条件也是范围查询
4.GROUP BY关键字优化
groupby实质是先排序后进行分组,遵照索引建的最佳左前缀
? 当无法使用索引列,增大max_length_for_sort_data参数的设置+增大sort_buffer_size参数的设置 ?
where高于having,能写在where限定的条件就不要去having限定了。
5.
1.是什么
慢查询是什么?
1.mysql的慢查询日志是mysql提供的一种日志记录,它用来记录在mysql中响应时间超过阙值得语句, ? 具体是指时间超过long_query_time的sql,则会被记录到慢查询日志中
2.具体指运行时间超过long_query_time值的sql,则会被记录到慢查询日志中。long_query_time的默认值为10,意思是运行10s以上的语句。
3.由他来查看哪些sql超出了我们的最大忍耐时间值,比如一条sql执行超过了5s,我们就算是慢sql,希望能收集执行超过5s的sql,结合之前的explain进行全面的分析
说明:
默认情况下mysql 数据库没有开启慢查询日志,需要我们手动来设置这个参数
当然,如果不是需要调优的换,一般不建议启动该参数,因为慢查询日志会或多或少带来一定的性能影响。 慢查询日志支持将日志记录写入文件
查看是否开启及如何开启
? 默认 ? SHOW VARIABLES LIKE ‘%slow_query_log%‘
默认情况下slow_query_log的值是off,表示慢查询日志是禁用的,可以 通过设置slow_query_log的值来开启 show variables like ‘%slow_query_log%‘; +---------------------+----------------------------------+ | Variable_name | Value | +---------------------+----------------------------------+ | slow_query_log | OFF | | slow_query_log_file | /var/lib/mysql/centos02-slow.log | +---------------------+----------------------------------+
set global slow_query_log = 1;#开启
set slow_query_log = 1;#临时开启,当前session生效
使用set global slow_query_log = 1 开启慢查询日志,只对当前数据库生效,
如果mysql重启则会失效
如果要永久生效,就必须修改配置文件my.cnf(其他系统变量也是如此)
修改my.cnf文件。【mysqld】下增加或修改参数 slow_query_log和show_query_log_file后,然后重启mysql服务器。
也即将如下两行配置进my.cnf
slow_query_log=1 |
slow_query_log_file=/var/lib/mysql/centos02-slow.log
关于慢查询的参数slow_query_log_file,她指定慢查询日志文件的存放路径,系统默认会给一个默认的
文件host_name-slow.log(如果没有指定参数slow_query_log_file的话)
那么开启慢查询日志后,什么样的SQL参会记录到慢查询里面?
这个是由参数long_query_time控制,默认情况下long_query_time的值为10s;
命令使用:show variables like ‘long_query_time%‘;
+-----------------+-----------+
| Variable_name | Value |
+-----------------+-----------+
| long_query_time | 10.000000 |
+-----------------+-----------+
可以使用命令修改,也可以在my.cnf参数中修改
加入运行时间正好等于long_query_time 的情况,并不会被记录下来。也就是说,在mysql源码里是判断大于long_query_time,而非大于等于
show global status like ‘%Slow_queries‘;
show global status like ‘%Slow_queries‘;
#配置文件记录慢sql
[mysqld] 下配置:
slow_query_log=1;
slow_query_log_file=/var/lib/mysql/centos-slow.log;
long_query_time=3;
log_output=FILE;
6.日志分析工具mysqldumpslow
在生产环境中,如果要手工分析日志,查找,分析sql,显然是个体力活,mysql提供了日志分析工具mysqldumpslow
查看mysqldumpslow的帮助信息
mysqldumpslow --help
s:是表示按何种方式排序 ?
c:访问次数 ? l:锁定时间 ? r:返回记录 ? t:查询时间 ?
al:平均锁定时间 ? ar:平均返回记录数 ? at:平均查询时间 ? t:即为返回前面多少条的数据 ?
g:后边搭配一个正则匹配模式,大小写不敏感的
工作常用参考: 得到返回记录集最多的10个sql mysqldumpslow -s r -t 10 /var/lib/mysql/centos02-slow.log 得到访问此时最多的10个SQL mysqldumpslow -s c -t 10 /var/lib/mysql/centos02-slow.log 得到按时间排序的前10条记录里面含有左连接的查询语句 mysqldumpslow -s t -t 10 -g "left join" /var/lib/mysql/centos02-slow.log 另外建议在使用这些命令时候结合| 和more使用,否则有可能出现爆屏情况 mysqldumpslow -s r -t 10 /var/lib/mysql/centos02-slow.log | more
show variables like ‘profiling‘; #或
show variables like ‘profiling%‘; set profiling=on;
show profile cpu,block io for query 3; #参数备注 type: all --显示所有的开销信息 block IO --显示块io相关开销 context switches --上下文切换相关开销 cpu --显示cpu相关开销信息 ipc --显示发送和接收相关开销信息 memory --显示内存相关开销问题 page faults --显示页面错误相关开销信息 source --显示和source_function,source_file,Source_line相关的开销信息 swap --显示交换次数相关的开销信息
############配置启用################ 在mysql的my.cnf中,设置如下 #开启 general_log=1 #记录日志文件的位置 general_log_file=/path/logfile #输出格式 log_output=FILE ############编码启用################ set general_log=1; set global log_output=‘TABLE‘; 此后,你所编写的sql语句,将会记录到mysql库中的general_log表,可以使用下面的命令查看 select * from mysql.general_log; 开启后查看我们的环境 可以在测试环境中某个时间段出现问题了,抓取出这些时间段的sql,尝试去复现
!!!!!!!永远不要在生产环境开启这个功能。
###############建表##模拟插入百万数据#################### #1.建表dept create table dept( id int unsigned primary key auto_increment, deptno mediumint unsigned not null default 0, dname varchar(20) not null default ‘‘, loc varchar(13) not null default ‘‘ )engine=innodb default charset=utf8; #2.建表emp create table emp( id int unsigned primary key auto_increment, empno mediumint unsigned not null default 0,/*编号*/ ename varchar(20) not null default "",/*名字*/ job varchar(9) not null default "",/*工作*/ mgr mediumint unsigned not null default 0,/*上级编号*/ hiredate date not null,/*入职时间*/ sal decimal(7,2) not null,/*薪水*/ comm decimal(7,2) not null,/*红利*/ deptno mediumint unsigned not null default 0/*部门编号*/ )engine=innodb default charset=utf8; ###############2.设置参数log_trust_function_createors###################### 设置参数log_trust_function_createors 创建函数,假如报错:the function has none of deterministic.... #由于开启过慢查询日志,因为我们开启了bin-log,我们就必须为我们的function指定一个参数。 show variables like ‘log_bin_trust_function_creators‘; set global log_bin_trust_function_creators=1; #这样添加参数后,如果mysqld重启,上述参数又会消失,永久的办法: windows下my.ini[mysqld]加上 log_bin_trust_function_creators=1 linux 下 /etc/my.cnf 下my.cnf [mysqld]加上 log_bin_trust_function_creators=1 ###########3创建函数保证每条数据都不同############ #用于产生随机字符串 delimiter $$ CREATE FUNCTION rand_string(n int) RETURNS varchar(255) begin declare chars_str varchar(100) default "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"; declare return_str varchar(255) default ""; declare i int default 0; while i < n do set return_str=concat(return_str,substring(chars_str,floor(1+rand()*52),1)); set i= i+1; end while; return return_str; end $$ delimiter ; #用于随机生成部门编号 delimiter $$ create function rand_num() returns int(5) begin declare i int default 0; set i = floor(100 +rand()*10); return i; end $$; delimiter ; #如果要删除 #drop function rand_num; #######################4.创建存储过程###################### #创建往emp表中插入数据的存储过程 delimiter $$ create procedure insert_emp(in start int(10),in max_num int(10)) begin declare i int default 0; #set autocommit = 0,把autocommit设置成0 set autocommit=0; repeat set i=i+1; insert into emp(empno,ename,job,mgr,hiredate,sal,comm,deptno) values( (start+i),rand_string(6),‘salesman‘,001,curdate(),2000,400,rand_num()); until i=max_num end repeat; commit; end $$ delimiter ; #创建往dept表中插入数据的存储过程 #执行存储过程,往dept表中添加随机数据 delimiter $$ create procedure insert_dept(in start int(10),in max_num int(10)) begin declare i int default 0; set autocommit =0; repeat set i=i+1; insert into dept(deptno,dname,loc) values((start+i),rand_string(10),rand_string(8)); until i=max_num end repeat; commit; end $$ delimiter ; #######################5.调用存储过程####################### delimiter ; call insert_dept(100,10); call insert_emp(100001,500000);
以上是关于5.查询截取分析(含百万测试数据脚本)的主要内容,如果未能解决你的问题,请参考以下文章