SQL中用到LIKE模糊检索的几种优化场景

Posted 2022-02-23 bisal

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SQL中用到LIKE模糊检索的几种优化场景相关的知识，希望对你有一定的参考价值。

SQL开发中经常会碰到使用LIKE模糊检索的场景，'%'的位置，可能影响索引的正常使用，看到刘老师公众号的一篇文章，介绍了相关场景的改造策略，非常受用，推荐阅读。

测试表t1，object_name列创建索引，

create table t1 as select * from dba_objects;
create index idx_t1_01 on t1(object_name);

场景一，'%'在后

select object_name from t1 where object_name like 'BISAL%';

明显能使用索引，但是要注意，这种情况下，'%'前字符串越短，索引的选择性就可能越差，

场景二，'%'在前

select object_name from t1 where object_name like '%BISAL'

因为这个索引是按照object_name列的正序在索引中组织的，头部的模糊检索，无法直接通过索引定位数据，只是因为检索列只有object_name，所以用到的是索引快速全扫描，实际还是扫描的所有索引叶子节点，

为了说明清楚，我们检索object_id列，他不在索引中，

select object_id from t1 where object_name like '%BISAL';

因此，Oracle选择了成本更低的全表扫描，

作为比对，我们按照'BISAL%'，能用到索引的场景测试下，

select object_id from t1 where object_name like 'BISAL%';

可以看到，用到的是索引范围扫描，得到rowid，再回表得到具体的数据，不需要扫描整个索引或者整张表，

我们拉回来，如果非得用'%BISAL'检索，可以创建一个object_name列的反向索引，

create index idx_t1_02 on t1(reverse(object_name));

查询语句中LIKE的右值同样使用reverse函数，

select object_name from t1 where reverse(object_name) like reverse('%BISAL');

此时，'%BISAL'用到了索引，细心的朋友可能发现执行计划和上面的略有不同，这里多了回表的操作，原因就是索引是按照reverse(object_name)组织的，但是检索的是object_name，因此要根据索引进行回表，

场景三，前后'%'

例如'%BISAL%'，能不能使用索引？

分为三种情况，

(1) ABC始终从字符串开始的某个固定位置出现，可以创建函数索引进行优化。

(2) ABC始终从字符串结尾的某个固定位置出现，可以创建函数组合索引进行优化。

(3) ABC在字符串中位置不固定，可以通过改写SQL进行优化。

第一种情况，ABC始终从字符串开始的某个固定位置出现。

可以通过substr函数截取字符串的功能，创建函数索引。

例如，BISAL从字符串的第五位出现，创建函数索引，

create index idx_t1_03 on t1(substr(object_name, 5, 30));

执行如下SQL，相当于每次都从原字符串的第五位开始截取，

select object_name from t1 where substr(object_name, 5, 30) like 'BISAL%';

可以用到索引，

第二种情况，ABC始终从字符串结尾的某个固定位置出现，可以创建函数组合索引进行优化。

相当于需要倒序截取字符串，可以通过reverse和substr组合函数索引，例如BISAL从字符串倒数第五位出现，创建函数索引，

create index idx_t1_04 on t1(reverse(substr(object_name, 1, length(object_name)-4)));

检索的时候，需要用到reverse和substr函数组合，like右值用'%BISAL'，就可以实现‘%BISAL%’检索功能，

select object_name from t1 where reverse(substr(object_name, 1, length(object_name)-4)) like reverse ('%BISAL');

第三种情况，ABC在字符串中位置不固定，可以通过改写SQL进行优化。

这种就需要改写，假设object_name存在索引，要求执行如下，

select object_name from t1 where object_name like '%BISAL%';

我们改写成，通过一个子查询，和条件object_name关联，

select object_name from t1 where object_name in (select object_name from t1 where object_name like '%BISAL%');

此时的执行计划，如下所示，索引快速全扫描和索引范围扫描的组合，

即使我们检索object_id这个不在索引中的字段，

select object_id from t1 where object_name in (select object_name from t1 where object_name like '%BISAL%');

同样避免了全表扫描，虽然还是要索引快速全扫描，但至少扫描的成本降低了(1/N(索引块数和数据块数的比例))，单就这点来说，表越大，效果可能越明显。但是这种IN改写，如果子查询返回的记录数较少，执行效率就可能提高了N倍，但如果较多，改写的效率，可能和之前相差不大了，

虽然以上的'%'有各种改造的方案，但至少都得改写一些SQL，所以还是建议，从需求层面，确定使用LIKE模糊检索的场景到底合理不合理，他的非功能指标是否满足要求，不要上来就改，谋定而后动，就可能事半功倍。

近期更新的文章：

《短道速滑和速度滑冰科普贴》

《InnoDB执行delete时到底做了什么？》

《最近碰到的问题》

《关于数据治理的读书笔记 - 企业数据治理的“道、法、术、器”》

《克隆PDB数据库操作》

文章分类和索引：

《公众号900篇文章分类和索引》

以上是关于SQL中用到LIKE模糊检索的几种优化场景的主要内容，如果未能解决你的问题，请参考以下文章

如何优化Sql server 大数据量时使用 like 查询的速度？或有啥别的方法实现模糊查询？

关于SQL查询语句中的LIKE模糊查询的解释

SQL 的模糊查询的几种方式

在SQL Server中用好模糊查询指令LIKE

总结Mysql 模糊查询的几种方式

mybaties中，模糊查询的几种写法