5.查询截取分析(含百万测试数据脚本)

Posted weixiaotao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了5.查询截取分析(含百万测试数据脚本)相关的知识,希望对你有一定的参考价值。

1.explain

-----分析----测试中分析优化(初步)

  1. 观察,至少跑一天,看看生产的慢sql情

  2. 开启慢日志查询,设置阙值,比如超过5s的就为慢sql,并将他们抓取出来

  3. explain + 慢sql分析

  4. show profile -----至此初步的sql优化问题基本定位出来

  5. .运维经理、DBA 进行sql数据库服务器的参数调优。

 

2.永远小表驱动大表

类似嵌套循环Nested Loop

forint i=5;...){
  forint j=1000;...){
  
  }
}  ==>推荐
 ===========
forint i=1000;...){
  forint j=5;...){
  
  }
}
 优化原则:小表驱动大表,即小的数据集驱动大的数据集
================= 原理(RBO) ======================
select * from A where id in (select id  from B);
<=>
for select id from B
for select * from A where A.id=B.id
当B表的数据集小于A表的数据集时候,用in 优于exists

================================================
select * from A where exists (select 1 from B where B.id =A.id)
<=>
for select * from A 
for select * from B where B.id=A.id
当A的数据集小于B的数据集时候,用exists优于in

注意:A表和B表的Id字段应建立索引


【existsselect ..... from table where exists (subquery);
该语法可以理解为:将主查询的数据,放到子查询中做条件验证,根据验证结果(true或false)来决定主查询的数据结构是否得以保留

提示:
1. exists(subquery) 只返回true或者false,因此子查询中的select * 也可以是select 1或者其他,官方说法是实际执行时候会忽略select清单
2.exists 子查询的实际执行过程可能经过了优化而不是我们理解上的逐条对比,如果担忧效率的问题,可进行实际检验以确定是否有效率的问题
3.exists子查询往往也可以用条件表达式,其他子查询或者join代替,何种最优需要具体问题具体分析

3.order by关键字优化

3.1 ORDER BY子句,尽量使用Index方式排序,避免使用FileSort方式排序

#建表
create table tblA(
#id int primary key not null auto_increment,
age int,
birth timestamp not null
);

insert into tblA(age,birth) values(22,now());
insert into tblA(age,birth) values(23,now());
insert into tblA(age,birth) values(24,now());

create index idx_A_ageBirth on tblA(age,birth);
select * from tblA;
#案例
explain select * from tblA where age > 20 order by age;
explain select * from tblA where age > 20 order by age,birth;
explain select * from tblA where age > 20 order by birth;#出现Using filesort
explain select * from tblA where age > 20 order by birth,age;#出现Using filesort
###############
explain select * from tblA order by birth;#出现Using filesort
explain select * from tblA where birth > 2016-01-20 00:00:00 order by birth;#出现Using filesort
explain select * from tblA where birth > 2016-01-20 00:00:00order by age;
explain select * from tblA order by age ASC, birth DESC;#出现Using filesort

3.1.1mysql支持二种方式的排序,FileSort和Index,Index效率高。它指MySQL扫描索引本身完成排序。FileSort方式效率较低。 ?

3.1.2 ORDER BY满足两情况,会使用Index方式排序 ? ORDER BY语句使用索引最左前列 ? 使用where子句与OrderBy子句条件列组合满足索引最左前列

3.2 尽可能在索引列上完成排序操作,遵照索引建的最佳左前缀

3.3 如果不在索引列上,filesort有两种算法:mysql就要启动双路排序和单路排序

  双路排序: ? MySQL4.1之前是使用双路排序,字面意思是两次扫描磁盘,最终得到数据。 读取行指针和orderby列,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取对应的数据传输 ? 从磁盘取排序字段,在buffer进行排序,再从磁盘取其他字段。 取一批数据,要对磁盘进行两次扫描,众所周知,IO是很耗时的,所以在mysql4.1之后,出现了第二张改进的算法,就是单路排序。

  单路排序: ? 从磁盘读取查询需要的所有列,按照orderby列在buffer对它们进行排序,然后扫描排序后的列表进行输出, 它的效率更快一些,避免了第二次读取数据,并且把随机IO变成顺序IO,但是它会使用更多的空间, 因为它把每一行都保存在内存中了。 结论及引申出的问题: ? 由于单路是后出来的,总体而言好过双路 ? 但是用单路有问题:在sort_buffer中,方法B(单路)比方法A(双路)要占用更多的空间,因为方法B是把所有的字段都取出来,所以有可能取出的数据的总大小超出了 sort_buffer的容量,导致每次只能取sort_buffer容量大小的数据,进行排序(创建tmp文件,多路合并),排完在取sort_buffer容量大小,再排.....从而多次IO

  本来想省一次IO操作的,反而导致了大量的IO操作,反而得不偿失。

3.4 优化策略

增大sort_buffer_size参数的设置

增大max_length_for_sort_data参数的设置

why:

提高Order by 的速度

  1. order by 时 select * 是一个大忌,只query需要的字段,这点非常重要。在这里的影响是: 1.1 当query的字段大小总和小于max_length_for_sort_data 而且排序字段不是TEXT|BLOB类型时候,会用改进后的算法----单路排序, 否则用老算法---多路排序 1.2 两种算法的数据都有可能超出sort_buffer的容量,超出之后,会创建tmp文件进行合并排序,导致多次IO,但是用单路排序算法风险会更大一些,所以要提高sort_buffer_size

  2. 尝试提高sort_buffer_size 不管用那种算法,提高这个参数都会有提高效率,当然,要根据系统的能力去提高。因为这个参数是针对每个进程的。

  3.尝试提高max_length_for_sort_data 提高这个参数,会增加用改进算法的概率。但是如果设的太高,数据总量超出了sort_buffer_size的概率就会增大,明显的症状是 高的磁盘IO活动和低的处理器使用率

3.5 小总结

为排序使用索引 mysql两种排序方式:文件排序或扫描有序索引排序 mysql能为排序或者查询使用相同的索引 key a_b_c(a,b,c) order by 能使用索引最左前缀 ? order by a ? order by a,b ? order by a,b,c ? order by a desc,b desc,c desc

如果where使用索引的最左前缀定义为常量,则order by 能使用索引 where a=const order by b,c where a=const and b=const order by c where a=const order by b,c where a=const and b > const order by b,c

不能使用索引进行排序 order by a asc,b desc,c desc #排序不一致 where g=const order by b,c #丢失a索引 where a=const order by c #丢失b索引 where a=const order by a,d #d不是索引的一部分 where a in (....) order by b,c #对于排序来说,多个相等条件也是范围查询

4.GROUP BY关键字优化

 groupby实质是先排序后进行分组,遵照索引建的最佳左前缀

? 当无法使用索引列,增大max_length_for_sort_data参数的设置+增大sort_buffer_size参数的设置 ?

 where高于having,能写在where限定的条件就不要去having限定了。

5.慢查询日志

1.是什么

慢查询是什么?

  1.mysql的慢查询日志是mysql提供的一种日志记录,它用来记录在mysql中响应时间超过阙值得语句, ? 具体是指时间超过long_query_time的sql,则会被记录到慢查询日志中

  2.具体指运行时间超过long_query_time值的sql,则会被记录到慢查询日志中。long_query_time的默认值为10,意思是运行10s以上的语句。

   3.由他来查看哪些sql超出了我们的最大忍耐时间值,比如一条sql执行超过了5s,我们就算是慢sql,希望能收集执行超过5s的sql,结合之前的explain进行全面的分析

2.怎么玩

说明:

默认情况下mysql 数据库没有开启慢查询日志,需要我们手动来设置这个参数

当然,如果不是需要调优的换,一般不建议启动该参数,因为慢查询日志会或多或少带来一定的性能影响。 慢查询日志支持将日志记录写入文件

查看是否开启及如何开启

? 默认 ? SHOW VARIABLES LIKE ‘%slow_query_log%‘

默认情况下slow_query_log的值是off,表示慢查询日志是禁用的,可以
通过设置slow_query_log的值来开启

show variables like %slow_query_log%;
+---------------------+----------------------------------+
| Variable_name       | Value                            |
+---------------------+----------------------------------+
| slow_query_log      | OFF                              |
| slow_query_log_file | /var/lib/mysql/centos02-slow.log |
+---------------------+----------------------------------+


set global slow_query_log = 1;#开启

set slow_query_log = 1;#临时开启,当前session生效

使用set global slow_query_log = 1 开启慢查询日志,只对当前数据库生效,
如果mysql重启则会失效


如果要永久生效,就必须修改配置文件my.cnf(其他系统变量也是如此)
修改my.cnf文件。【mysqld】下增加或修改参数 slow_query_log和show_query_log_file后,然后重启mysql服务器。
也即将如下两行配置进my.cnf
slow_query_log=1 |
slow_query_log_file=/var/lib/mysql/centos02-slow.log


关于慢查询的参数slow_query_log_file,她指定慢查询日志文件的存放路径,系统默认会给一个默认的
文件host_name-slow.log(如果没有指定参数slow_query_log_file的话)

 

那么开启慢查询日志后,什么样的SQL参会记录到慢查询里面?
这个是由参数long_query_time控制,默认情况下long_query_time的值为10s;
命令使用:show variables like ‘long_query_time%‘;
+-----------------+-----------+
| Variable_name | Value |
+-----------------+-----------+
| long_query_time | 10.000000 |
+-----------------+-----------+

可以使用命令修改,也可以在my.cnf参数中修改
加入运行时间正好等于long_query_time 的情况,并不会被记录下来。也就是说,在mysql源码里是判断大于long_query_time,而非大于等于

 

Case ? 查看当前多少秒算慢 ? SHOW VARIABLES LIKE ‘long_query_time%‘;

?#设置慢的阙值时间 ?

set global long_query_time=3;

为什么设置后看不出变化? ?

   需要重新连接或者新开一个会话才能看到修改值。 ?

  SHOW VARIABLES LIKE ‘long_query_time%‘; ?

  show global variables like ‘long_query_time‘;

记录慢SQL并后续分析:select sleep(4);

查询当前系统中有多少条慢查询记录

  show global status like ‘%Slow_queries‘;

  show global status like ‘%Slow_queries‘;

 

#配置文件记录慢sql

[mysqld] 下配置:
slow_query_log=1;
slow_query_log_file=/var/lib/mysql/centos-slow.log;
long_query_time=3;
log_output=FILE;

6.日志分析工具mysqldumpslow

在生产环境中,如果要手工分析日志,查找,分析sql,显然是个体力活,mysql提供了日志分析工具mysqldumpslow

查看mysqldumpslow的帮助信息

mysqldumpslow --help

s:是表示按何种方式排序 ?

c:访问次数 ? l:锁定时间 ? r:返回记录 ? t:查询时间 ?

al:平均锁定时间 ? ar:平均返回记录数 ? at:平均查询时间 ? t:即为返回前面多少条的数据 ?

g:后边搭配一个正则匹配模式,大小写不敏感的

工作常用参考:
得到返回记录集最多的10个sql
mysqldumpslow -s r -t 10 /var/lib/mysql/centos02-slow.log

得到访问此时最多的10个SQL
mysqldumpslow -s c -t 10  /var/lib/mysql/centos02-slow.log

得到按时间排序的前10条记录里面含有左连接的查询语句
mysqldumpslow -s t -t 10 -g "left join"  /var/lib/mysql/centos02-slow.log 

另外建议在使用这些命令时候结合| 和more使用,否则有可能出现爆屏情况
mysqldumpslow -s r -t 10 /var/lib/mysql/centos02-slow.log | more

7.show profiles

是什么:是mysql提供可以用来分析当前会话中语句执行的资源消耗情况。

  可以用于SQL的调优测量 默认情况下,参数处于关闭状态,并保存最近15次的运行结果

分析步骤 ?

1.是否支持,看看当前的SQL版本是否支持

show variables like profiling;
#或
show variables
like profiling%; set profiling=on;

2.开启功能,默认是关闭,使用前需要开启 ?

3.运行SQL ?

   ? select * from emp group by id%10 limit 150000 ? select * from emp group by id%20 order by 5 ?

4.查看结果,show profiles; ?

5.诊断SQL,show profile cpu,block io for query 上一步前面的问题SQL 数字号码;

show profile cpu,block io for query 3;
#参数备注
type:
    all                --显示所有的开销信息
    block IO    --显示块io相关开销
    context switches   --上下文切换相关开销
    cpu            --显示cpu相关开销信息
    ipc            --显示发送和接收相关开销信息
    memory     --显示内存相关开销问题
    page faults     --显示页面错误相关开销信息
    source        --显示和source_function,source_file,Source_line相关的开销信息
    swap         --显示交换次数相关的开销信息

6.日常开发需要注意的结论 ?

 converting HEAP to MyISAM 查询结果太大,内存都不够用了往磁盘上搬了。

? Creating tmp table 创建临时表 ?

         拷贝数据到临时表 ?

         用完再删除 ?

Copying to tmp table on disk 把内存中临时表复制到磁盘,危险!!!

? locked

8.全局查询日志

############配置启用################
在mysql的my.cnf中,设置如下
#开启
general_log=1
#记录日志文件的位置
general_log_file=/path/logfile
#输出格式
log_output=FILE


############编码启用################
set general_log=1;
set global log_output=TABLE;

此后,你所编写的sql语句,将会记录到mysql库中的general_log表,可以使用下面的命令查看
select * from mysql.general_log;

开启后查看我们的环境
可以在测试环境中某个时间段出现问题了,抓取出这些时间段的sql,尝试去复现
!!!!!!!永远不要在生产环境开启这个功能。

9.批量处理数据脚本

###############建表##模拟插入百万数据####################
#1.建表dept
create table dept(
id int unsigned primary key auto_increment,
deptno mediumint unsigned not null default 0,
dname varchar(20) not null default ‘‘,
loc varchar(13) not null default ‘‘
)engine=innodb default charset=utf8;

#2.建表emp
create table emp(
id int unsigned primary key auto_increment,
empno mediumint unsigned not null default 0,/*编号*/
ename varchar(20) not null default "",/*名字*/
job varchar(9) not null default "",/*工作*/
mgr mediumint unsigned not null default 0,/*上级编号*/
hiredate date not null,/*入职时间*/
sal decimal(7,2) not null,/*薪水*/
comm decimal(7,2) not null,/*红利*/
deptno mediumint unsigned not null default 0/*部门编号*/

)engine=innodb default charset=utf8;
###############2.设置参数log_trust_function_createors######################
设置参数log_trust_function_createors
创建函数,假如报错:the function has none of deterministic....
#由于开启过慢查询日志,因为我们开启了bin-log,我们就必须为我们的function指定一个参数。
show variables like log_bin_trust_function_creators;
set global log_bin_trust_function_creators=1;
#这样添加参数后,如果mysqld重启,上述参数又会消失,永久的办法:
windows下my.ini[mysqld]加上 log_bin_trust_function_creators=1
linux 下 /etc/my.cnf 下my.cnf [mysqld]加上 log_bin_trust_function_creators=1
###########3创建函数保证每条数据都不同############
#用于产生随机字符串
delimiter $$  
CREATE FUNCTION rand_string(n int) RETURNS varchar(255)   
begin          
  declare chars_str varchar(100) default "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";  
  declare return_str varchar(255) default "";          
  declare i int default 0;  
  while i < n do          
      set return_str=concat(return_str,substring(chars_str,floor(1+rand()*52),1));  
      set i= i+1;          
  end while;          
  return return_str;      
end $$  
delimiter ;

#用于随机生成部门编号
delimiter $$
create function rand_num() returns int(5)
begin
 declare i int default 0;
 set i = floor(100 +rand()*10);
 return i;
end $$;
delimiter ;

#如果要删除
#drop function rand_num;
#######################4.创建存储过程######################
#创建往emp表中插入数据的存储过程
delimiter $$
create procedure insert_emp(in start int(10),in max_num int(10))
begin 
declare i int default 0;
#set autocommit = 0,把autocommit设置成0
set autocommit=0;
repeat
set i=i+1;
insert into emp(empno,ename,job,mgr,hiredate,sal,comm,deptno) values(
(start+i),rand_string(6),salesman,001,curdate(),2000,400,rand_num());
until i=max_num
end repeat;
commit;
end $$
delimiter ;
#创建往dept表中插入数据的存储过程
#执行存储过程,往dept表中添加随机数据
delimiter $$
create procedure insert_dept(in start int(10),in max_num int(10))
begin 
declare i int default 0;
set autocommit =0;
repeat 
set i=i+1;
insert into dept(deptno,dname,loc) values((start+i),rand_string(10),rand_string(8));
until i=max_num
end repeat;
commit;
end $$
delimiter ;
#######################5.调用存储过程#######################
delimiter ;
call insert_dept(100,10);
call insert_emp(100001,500000);

 

以上是关于5.查询截取分析(含百万测试数据脚本)的主要内容,如果未能解决你的问题,请参考以下文章

如何利用ffmpeg将一小段视频截取成图片

谱分析中窗的选取

窗函数介绍

shell脚本的使用---cut截取数据

shell脚本的使用---cut截取数据

JPA 查询调用 getter 数百万次