group by 优化大法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了group by 优化大法相关的知识,希望对你有一定的参考价值。
参考技术A 首先直接结论:1. 如果对 group by 语句的结果没有排序要求,要在语句后面加 order by null;
2. 尽量让 group by 过程用上表的索引,确认方法是 explain 结果里没有 Using
temporary 和 Using filesort;
3. 如果 group by 需要统计的数据量不大,尽量只使用内存临时表;也可以通过适当调大
tmp_table_size 参数,来避免用到磁盘临时表;
4. 如果数据量实在太大,使用 SQL_BIG_RESULT 这个提示,来告诉优化器直接使用排序
算法得到 group by 的结果。
group by 执行流程:
select id%10 as m, count(*) as c from t1 group by m;
上面sql语句的执行流程如下:
1. 创建内存临时表,表里有两个字段 m 和 c,主键是 m;
2. 扫描表 t1 的索引 a,依次取出叶子节点上的 id 值,计算 id%10 的结果,记为 x;
如果临时表中没有主键为 x 的行,就插入一个记录 (x,1);
如果表中有主键为 x 的行,就将 x 这一行的 c 值加 1;
3. 遍历完成后,再根据字段 m 做排序,得到结果集返回给客户端。(为什么有的个结论的目的)。
SQL 语句末尾增加 order by null,这样就跳过了最后排序的阶段,直接从临时表中取数据返回。
参数 tmp_table_size 就是控制这个内存临时表大小的,默认是 16M。
如果执行中存放的数据超过内存临时表的上限,这个时候就会把内存临时表转为磁盘临时表。
不论是使用内存临时表还是磁盘临时表,group by 逻辑都需要构造一个带唯
一索引的表,执行代价都是比较高的。我们有什么优化的方法呢?
group by field //给field加索引
在 group by 语句中加入 SQL_BIG_RESULT 这个提示(hint),就可以告诉优化器:这个
语句涉及的数据量很大,请直接用磁盘临时表。
mysql 的优化器一看,磁盘临时表是 B+ 树存储,存储效率不如数组来得高。所以,既
然你告诉我数据量很大,那从磁盘空间考虑,还是直接用数组来存吧。
select SQL_BIG_RESULT id%100 as m, count(*) as c from t1 group by m;
这个语句的执行没有再使用临时表,而是直接用了排序算法。
注意:union 跟 union all的一个性能区别是:union涉及到去重,所以,用到了临时表。
MySQL-SQL优化:主键,order by,group by,limit,count,update
零、本文纲要
- 一、插入数据
- 二、主键优化
- 三、order by优化
- 四、group by优化
- 五、limit优化
- 六、count优化
- 七、update优化update优化
tips:Ctrl + F快速定位到所需内容阅读吧。
一、插入数据
- 需求:一次性插入批量数据;
-- 创建插入测试表
create table tb_test
(
id int primary key,
name varchar(20) not null
)
comment 测试插入表;
insert into tb_test values(1,Tom);
insert into tb_test values(2,Cat);
insert into tb_test values(3,Jerry);
.....
1、方案一:批量插入数据
Insert into tb_test values(1,Tom),(2,Cat),(3,Jerry);
2、方案二:手动提交事务
start transaction;
insert into tb_test values(1,Tom),(2,Cat),(3,Jerry);
insert into tb_test values(4,Tom),(5,Cat),(6,Jerry);
insert into tb_test values(7,Tom),(8,Cat),(9,Jerry);
commit;
注意:此处我们id按顺序插入的效率,也高于乱序插入的效率。
3、方案三:load指令插入
详细内容可以参考官方文档:LOAD DATA Statement。
- ① 客户端连接服务端,添加
-–local-infile
;
mysql –-local-infile -u root -p
- ② 开启从本地加载文件导入数据的开关;
set global local_infile = 1;
- ③ 执行load指令将准备好的数据,加载到表结构中。
LOAD DATA LOCAL INFILE
:指定本地插入.sql文件的目录;
INTO TABLE
:指定被插入的表格;
FIELDS TERMINATED BY
:字段由指定符号分隔;
LINES TERMINATED BY
:行数据由指定符号分行。
LOAD DATA LOCAL INFILE /root/insert_tb_test.sql
INTO TABLE tb_test
FIELDS TERMINATED BY ,
LINES TERMINATED BY \\n ;
# .sql文件内容格式:
1,Tom
2,Cat
3,Jerry
二、主键优化
B+Tree的每一个节点存储在一个页(Page:默认16KB
)当中,如果是聚集索引的叶子节点,那么其中还会存储Row数据
;如果是二级索引,那么其中会存储主键索引。如果当前页存储不下,则会存储到下一个页
当中,页与页之间通过指针连接
。
1、页面存储
重要参数MERGE_THRESHOLD
:索引页的合并阈值,默认为50%。
① 页面储存过程,如果该页未满,而且新存入的数据可以在当前页放下,则不用申请新页面,如下:
② 如果当前页面P5存不下新的数据,则申请新的页面P6存储后续数据,如下:
2、页面合并
① 删除记录时,不会实际删除该记录。相反,它会将记录标记为已删除
,并且它使用的空间变为可回收
。删除5、6、7、8的Row数据,如下:
② 当页面收到足够的删除以匹配MERGE_THRESHOLD
(默认情况下为页面大小的50%)时,InnoDB开始查看最近的页面(NEXT
后和UPBER
前),以查看是否有机会通过合并两个页面来优化空间利用率。
此时,我们的P6页面又将空间空了出来,可以存放其他新插入的数据。
3、页面拆分
① P10页面已满,P11页面也已满,此时插入id为27的Row数据。此时,会去申请新的页,来完成页面拆分。
② 索引页P10会将数据保存在合并阈值50%内,将多余的部分移动至新的页面。然后,再将新的数据插入新页面。
③ 为了保持顺序,此时还会做的动作就是重新定义
页面P10、P12、P11的先后
关系。
4、索引设计原则
① 满足业务需求的情况下,尽量降低
主键的长度
;
② 插入数据时,尽量选择顺序插入
,选择使用AUTO_INCREMENT自增主键
;
③ 尽量不要使用UUID做主键或者是其他自然主键,如身份证号;
④ 业务操作时,避免对主键的修改。
三、order by优化
1、Extra
① Using filesort
通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sort buffer
中完成排序
操作,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序;
② Using index
通过有序索引顺序扫描直接返回有序数据
,这种情况即为 using index,不需要额外排序
,操作效率高。
2、order by字段无索引情形
① Using filesort:在order by字段没有设置索引的情形下,此时效率差。
3、order by字段设置索引
① Using index:设置idx_user_age_phone_aa索引,覆盖age,phone字段。此时,我们在满足最左前缀法则
的前提下,效率有所提升。
不满足最左前缀法则的情形:explain select id,age,phone from tb_user order by phone , age;
,则会出现Using filesort
,效率降低。
② 降序排序:explain select id,age,phone from tb_user order by age desc , phone desc ;
,由于默认是按照升序创建索引的,所以此处出现了Backward index scan
,这个代表反向扫描索引。
③ 一升一降:explain select id,age,phone from tb_user order by age asc , phone desc ;
或者explain select id,age,phone from tb_user order by age desc , phone asc ;
的情形,则会出现Using filesort
,效率降低。
④ 设置升降索引:create index idx_user_age_phone_ad on tb_user(age asc ,phone desc);
,再次执行上述查询执行计划分析,可以看到效率得到了提升。
4、order by优化原则
- 根据排序字段建立合适的索引,多字段排序时,也遵循
最左前缀法则
; - 尽量使用
覆盖索引
; - 多字段排序, 一个升序一个降序,此时需要注意联合索引在创建时的规则
(ASC/DESC)
; - 如果不可避免的出现filesort,大数据量排序时,可以适当增大排序缓冲区大小
sort_buffer_size(默认256k)
。
# 查看默认缓冲区大小,如需修改vi编辑重启mysql即可
cat /etc/my.cnf
...
# Remove leading # to set options mainly useful for reporting servers.
# The server defaults are faster for transactions and fast SELECTs.
# Adjust sizes as needed, experiment to find the optimal values.
# join_buffer_size = 128M
# sort_buffer_size = 2M
# read_rnd_buffer_size = 2M
...
四、group by优化
1、group by建立索引前后
在分组操作时,可以通过索引来提高效率。
2、最左前缀法则
分组操作时,索引的使用也是满足最左前缀法则的。
3、group by优化原则
- 在分组操作时,可以通过索引来提高效率;
- 分组操作时,索引的使用也是满足最左前缀法则的。
五、limit优化
在数据量比较大时,如果进行limit分页查询,在查询时,越往后,分页查询效率越低。
- 1、利用主键索引优化(实际可能不可用)
在主键连续,而且我们知道是从1开始自增的情况下:explain select * from tb_sku where id >= 5000000 limit 10;
。
mysql> select * from tb_sku where id >= 5000000 limit 10;
10 rows in set (0.02 sec)
效率的提升非常明显,但是限制也是很严格的。
- 2、创建覆盖索引优化
优化思路: 一般分页查询时,通过创建覆盖索引
能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化。
# 推荐此形式
mysql> select * from tb_sku a, (select id from tb_sku order by id limit 5000000,10) b where a.id = b.id;
10 rows in set (2.54 sec)
mysql> select * from tb_sku a, (select id from tb_sku limit 5000000,10) b where a.id = b.id;
10 rows in set (1.95 sec)
六、count优化
如果数据量很大,在执行count操作时,是非常耗时的。
- 1、MyISAM
① MyISAM 引擎把一个表的总行数
存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高;
② 但是如果是带条件的count,MyISAM也慢。
- 2、InnoDB
① InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行
地从引擎里面读出来,然后累积计数
。
- 3、count优化
提升InnoDB表的count效率,主要的优化思路:自己计数(额外记录总数,比如记录在Redis内,或者直接MySQL建表)。
问题是:带条件的count还是无效。
- 4、count用法
count()、count(主键)、count(字段)、count(数字)。
按照效率排序的话,count(字段) < count(主键 id) < count(1) ≈ count(),所以尽量使用 count(*)。
七、update优化
InnoDB的行锁
是针对索引加锁,不是针对记录加锁,并且该索引不能失效,否则会从行锁升级为表锁
(索引失效)。
# 行级锁
update course set name = javaEE where id = 1 ;
# name不是索引,升级表级锁
update course set name = SpringBoot where name = PHP ;
八、结尾
以上即为SQL优化的基础内容,感谢阅读。
以上是关于group by 优化大法的主要内容,如果未能解决你的问题,请参考以下文章
MySQL调优--05---多表查询优化子查询优化 ORDER BY优化GROUP BY优化分页查询优化
MySQL 进阶 索引 -- SQL优化(插入数据优化:导入本地文件数据主键优化order by优化group by优化limit优化count优化update优化)