如何书写高效的MySQL查询？

Posted 2021-03-13 逍遥山人~

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何书写高效的MySQL查询？相关的知识，希望对你有一定的参考价值。

How to write efficient MySQL query statements

`WHERE`子句中的书写注意事项

首先应考虑在 where 及 order by 涉及的列上建立索引。
下列操作会导致引擎放弃使用索引而进行全表扫描，是应尽量避免的。
- 1).在where 子句中使用!=或<>操作符
- 2).在where子句中对字段进行null值判断
  如：
```
select id from t where num is null;
```
  可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：
```
select id from t where num=0;
```
- 3).在where子句中使用 or 来连接条件
  如：
```
select id from t where num=10 or num=20;
```
  可以这样查询：
```
select id from t where num=10
union all
select id from t where num=20;
```
- 4).in 和 not in 也要慎用
  如：
```
select id from t where num in(1,2,3);
```
  对于连续的数值，能用between就不要用in
  如：
```
select id from t where num between 1 and 3;
```
  很多时候可以用exists代替in
  如：
```
select num from a where num in(select num from b);
```
  用下面的语句替换：
```
select num from a where exists(select 1 from b where num=a.num);
```
- 5).在where子句中使用参数
  因为SQL只有在运行时才会解析局部变量，但优化程序不能将访问计划的选择推迟到运行时，它必须在编译时进行选择。
  如果在编译时建立访问计划，变量的值还是未知的，因而无法作为索引选择的输入项。
  如下面语句将进行全表扫描：
```
select id from t where num=@num;
```
  可以改为强制查询使用索引：
```
select id from t with(index(索引名)) where num=@num
```
- 6).在where子句中对字段进行函数、算术运算或其他表达式运算
  如：
```
select id from t where num/2=100;
select id from t where date(createdate)>=\'2016-07-01\';
```
  应改为:
```
select id from t where num=100*2
select id from t where createdate>=\'2005-11-30 00:00:00\';
```

模糊查询(`like`)时需要注意的事项

左右都需要模糊匹配时，会导致全表扫描；
```
select id from t where tablename like \'%abc%\'
```
若要提高效率，可从以下三点着手：
- a.不以"%"开始，如：select id from t where tablename like \'abc%\'。
- b.如果必须使用like "%xxx" 的sql，可基于REVERSE()函数来创建一个函数索引。
  
  参考：http://blog.csdn.net/wangjunjun2008/article/details/52131668
- c.可以考虑全文检索。
  首先如果表默认是innoDB,这种表的类型不支持全文检索，所以要先改变其类型为MyISAM。
```
alter table song engine=MyISAM;
```
  然后要在对应的要进行查找的字段上面建立全文检索的索引：
```
alter table add fulltext index(songname);
```
  如果要同时对多个字段进行检索可以这样:
```
alter table add fulltext index(songname,singername);
```
  完成以上步骤后，就可以对表进行全文检索了。
  例如:
```
select * from song where match(singername) against(\'周杰伦\') ;
```
  或者多字段:
```
select * from song where match(singername,songname) against(\'风雨\');
```
  mysql目前可能只支持英文字符的全文搜索，如需使用全文检索需要把中文转化为拼音。
  可以在表里面为需要检索的字段添加一个拼音字段，检索的时候直接对拼音进行检索。
  参考：http://blog.sina.com.cn/s/blog_7865b0830101ach4.html

索引

复合索引
在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该索引中的第一个字段作为条件才能保证系统使用该索引，并且应尽可能的让字段顺序与索引顺序相一致。
当索引列有大量数据重复时，SQL查询可能不会去利用索引
并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的；
如一表中有字段sex[male|female]几乎各一半，那么即使在sex列上建了索引也对查询效率起不了作用。

这个时候可以用ENUM(枚举类型)，而不是VARCHAR，并对表结构进行优化(select column from table_name procedure analyse();)

例如：
```
SELECT loan_period FROM cbs_bsns_loan PROCEDURE ANALYSE();
```
索引并不是越多越好
索引固然可以提高相应的select的效率，但同时也降低了insert及update的效率；
因为insert或update时有可能会重建索引，所以怎样建索引需要慎重考虑，视具体情况而定。
原则上，一个表的索引数最好不要超过6个，若太多则应考虑一些不常使用到的列上建的索引是否有必要。
尽可能的避免更新clustered索引数据列
clustered索引数据列的顺序就是表记录的物理存储顺序，一旦该列值改变将导致整个表记录的顺序的调整，会耗费相当大的资源。
若应用系统需要频繁更新clustered索引数据列，那么需要考虑是否应将该索引建为clustered索引。

MySQL InnoDb中的索引分为 Clustered Index (聚簇索引)和 Secondary Index (二级索引)；
Clustered Index：每一个InnoDB表都有一个特殊的索引，叫做clustered index，通常来讲，clustered index和plrimary key是同一个意思。

InnoDB选择clustered index原则如下：
①如果表上定义了primary key，则使用primary key作为clustered index。
②如果没有定义primary key，选择第一个非空的UNIQUE索引作为clustered index。所以，如果表只有一个非空的UNIQUE索引，那么InnoDB就把它当作主健了。
③如果即没有primary key,也没有合适的UNIQUE索引，InnoDB内部产生一个隐藏列，这个列包含了每一行的row ID, row ID随着新行的插入而单调增加。然后在这个隐藏列上建立索引作为clustered index。

Secondary Index：除了Clustered Index之外的索引都是Secondary Index，每一个Secondary Index的记录中除了索引列的值之外，还包含主健值。通过二级索引查询首先查到是主键值，然后InnoDB再根据查到的主键值通过主键/聚簇索引找到相应的数据块。

字段类型

尽量使用数字型字段
若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。
因为引擎在处理查询和连接时会逐个比较字符串中每一个字符，而对于数字型而言只需要比较一次就够了。
比如，我们的表很多是用字符串来做主键或连接字段，这里其实可以用字符串作为业务主键，但使用自增id做主键和连接字段；
尽可能的使用 varchar/nvarchar(指定长度) 代替 char/nchar
首先变长字段存储空间小，可以节省存储空间；
其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。
对于少数枚举值的字段使用 ENUM 而不是 VARCHAR
枚举类型，限定值的取值范围，比如性别（男，女，未知）等。
ENUM 类型是非常快和紧凑的，其保存的是 TINYINT，但外表上显示为字符串。这样一来，用这个字段来做一些选项列表变得相当的完美。

如果你有一个字段，比如“性别”，“国家”，“民族”，“状态”或“部门”，你知道这些字段的取值是有限而且固定的，那么，你应该使用 ENUM 而不是 VARCHAR。

注意：不推荐在mysql中设置某一字段类型为enum，但是存的值为数字，比如‘0’，‘1’，‘2’；

表结构优化建议
```
select column from table_name procedure analyse();
```

表连接时的注意事项

尽量用 inner join
避免 LEFT JOIN 和 NULL；
尽量将条件写到on中，而不是都写到where中
on与where的执行顺序：
ON条件（A LEFT JOIN B ON条件表达式中的ON）用来决定如何从 B 表中检索数据行。
仅在匹配阶段完成以后，WHERE子句条件才会被使用，它将从匹配阶段产生的数据中检索过滤。
所以在使用连接时，尤其是 left join（或right join）时，一定要在先给出尽可能多的匹配满足条件，以减少需要匹配的数据量，并减少Where的执行。

关于连接的用法参考：http://www.cnblogs.com/BeginMan/p/3754322.html

其他注意事项

任何地方都不要使用 select * from t ，而应用具体的字段。
尽量使用表变量来代替临时表。
如果表变量包含大量数据，请注意索引非常有限（只有主键索引）。
避免频繁创建和删除临时表，以减少系统表资源的消耗。
在新建临时表时，如果一次性插入数据量很大，那么可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果数据量不大，为了缓和系统表的资源，应先create table，然后insert。
如果使用到了临时表，在存储过程的最后务必将所有的临时表显式删除，先 truncate table ，然后 drop table ，这样可以避免系统表的较长时间锁定。
尽量避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理。
千万不要 ORDER BY RAND()。