用正则表达式进行搜索

Posted 2022-02-06 霖行

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了用正则表达式进行搜索相关的知识，希望对你有一定的参考价值。

用正则表达式进行搜索

本章将学习如何在mysql WHERE子句内使用正则表达式来更好地控制数据过滤。

正则表达式介绍

前两章中使用匹配、比较和通配符查找数据，对于简单的过滤已经足够了。但面对更加复杂的条件，使用正则表达式可能更加方便快捷。

正则表达式是用来匹配文本的特殊的串（字符集合）。

所有种类的程序设计语言、文本编辑器、操作系统等都支持正则表达式。

正则表达式用正则表达式语言来建立。与其他语言一样，你需要学习相应的语法和指令。

学习更多内容 正则表达式的内容较多，本章介绍了正则表达式的基础。更多内容需要自己去了解。

使用MySQL正则表达式

MySQL用WHERE子句对正则表达式提供了初步的支持。

仅为正则表达式语言的一个子集 MySQL仅支持多数正则表达式实现的一个很小的子集。

基本字符匹配

检索prod_name列包含文本1000的行：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
+--------------+
1 row in set (0.03 sec)

除关键字LIKE被REGEXP代替外，这条语句很像LIKE
语句（MySQL必知必会——第八章用通配符进行过滤）。它指示MySQL：REGEXP后所跟的东西作为正则表达式处理。

这个例子看不出正则表达式的优点，让我们再看一个例子：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '.000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

这里使用了正则表达式.000。’.'是正则表达式语言中一个特殊的字符。它表示匹配任意一个字符。

LIKE与REGEXP 在LIKE和REGEXP之间有一个重要的差别。LIKE匹配整个列，而REGEXP在列值内进行匹配。当然，REGEXP可以通过定位符来匹配整个列。
匹配不区分大小写 MySQL中的正则表达式匹配不区分大小写。为区分大小写，可使用BINARY关键字，如WHERE prod_name REGEXP BINARY ‘JetPack .000’。

进行OR匹配

为搜索两个串之一，可以使用|：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1000|2000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

语句中使用了正则表达式1000|2000. '|'为正则表达式的OR操作符，它表示匹配其中之一。

两个以上的OR条件 可以给出两个以上的OR条件。例如’1000|2000|3000’将匹配1000或2000或3000.

匹配几个字符之一

我们可以通过指定一组用 [ 和 ] 括起来的字符，来匹配特定的单一字符。

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[123] Ton'
    -> ORDER BY prod_name;
+-------------+
| prod_name   |
+-------------+
| 1 ton anvil |
| 2 ton anvil |
+-------------+
2 rows in set (0.00 sec)

这里使用了正则表达式[123] Ton。[123]定义一组字符，它的意思是匹配1或2或3。

[]是另一种形式的OR语句。而[123] Ton是[1|2|3] Ton的缩写。

有时候带[]是必要的：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1|2|3 Ton'
    -> ORDER BY prod_name;
+---------------+
| prod_name     |
+---------------+
| 1 ton anvil   |
| 2 ton anvil   |
| JetPack 1000  |
| JetPack 2000  |
| TNT (1 stick) |
+---------------+
5 rows in set (0.00 sec)

这不是预期结果。因为’1|2|3 Ton’匹配的是1或2或3 Ton，而不是1 Ton或2 Ton或3 Ton。所以我们应该用’[1|2|3] Ton’来进行匹配。

字符集合也可以被否定，即，它们将匹配除指定字符外的任何东西。否定字符集，只需在集合开始处放置一个^即可。例如[^123]。

匹配范围

集合可用来定义要匹配的一个或多个字符。例如，匹配数字0到9：[0123456789]，我们可以简化这种类型的集合，用-来定义一个范围，例如，匹配数字0到9：[0-9]。也可以[3-6]等等。范围不一定只是数值，例如[a-z]匹配任意字母。

应用：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[1-5] Ton'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| .5 ton anvil |
| 1 ton anvil  |
| 2 ton anvil  |
+--------------+
3 rows in set (0.00 sec)

这里使用正则表达式[1-5] Ton，[1-5]定义了个范围，匹配1到5.

匹配特殊字符

正则表达式语言由特殊含义的特殊字符构成，例如，’.’、’[]’、’|’ 和 ‘-’ 等。但我们如何匹配这些特殊字符呢？

搜索包含.字符的值，尝试：

mysql> SELECT vend_name
    -> FROM vendors
    -> WHERE vend_name REGEXP '.'
    -> ORDER BY vend_name;
+----------------+
| vend_name      |
+----------------+
| ACME           |
| Anvils R Us    |
| Furball Inc.   |
| Jet Set        |
| Jouets Et Ours |
| LT Supplies    |
+----------------+
6 rows in set (0.01 sec)

这条语句并不符合预期结果，’.’ 匹配任意字符，所以每个行都被检索出来了。

为了匹配特殊字符，必须用\\\\作为前导。\\\\-表示查找-，\\\\.表示查找 ‘.’ 。

mysql> SELECT vend_name
    -> FROM vendors
    -> WHERE vend_name REGEXP '\\\\.'
    -> ORDER BY vend_name;
+--------------+
| vend_name    |
+--------------+
| Furball Inc. |
+--------------+
1 row in set (0.00 sec)

这个语句符合预期结果，\\\\.匹配 ‘.’，最后只检索出目标的一行。这个处理我们称作转义（escaping），正则表达式中有特殊意义的字符都需要经过转义才可匹配。

\\\\也可用来引用元字符（具有特殊意义的字符）：

元字符	说明
\\\\f	换页
\\\\n	换行
\\\\r	回车
\\\\t	制表
\\\\v	纵向制表

匹配\\ 为了匹配反斜杠（\\）字符本身，需要使用\\\\\\。
\\或\\\\? 多数正则表达式实现使用单个反斜杠转义特殊字符。但MySQL要求两个反斜杠（MySQL自己解释一个，正则表达式库解释另一个）。

匹配字符类

为了方便工作，对一些常用的匹配，我们可以使用预定义的字符集，称为字符类（character class）。

类	说明
[:alnum:]	任意字母和数字（同[a-zA-Z0-9]）
[:alpha:]	任意字母（同[a-zA-Z]）
[:blank:]	空格和制表（同[\\\\t]）
[:cntrl:]	ASCⅡ控制字符（ASCⅡ0到31和127）
[:digit:]	任意数字（同[0-9]）
[:graph:]	与[:print:]相同，但不包括空格
[:lower:]	任意小写字母（同[a-z]）
[:print:]	任意可打印字符
[:punct:]	除[:alnum:]和[:cntrl:]外的字符
[:space:]	包括空格在内的任意空白字符（同[\\\\f\\\\n\\\\r\\\\t\\\\v]）
[:upper:]	任意大写字母（同[A-Z]）
[:xdigit:]	任意十六进制数字（同[a-fA-F0-9]）

匹配多个实例

目前为止的正则表达式都是匹配一次出现，如果存在，就会被检索出。但有时我们需要对匹配的数目进行更强的控制。我们可以利用正则表达式的重复元字符来完成。

重复元字符：

元字符	说明
*	0个或多个匹配
+	1个或多个匹配（等于1,）
?	0个或一个匹配（等于0,1）
n	指定数目的匹配
n,	不少于指定数目的匹配
n,m	匹配数目的范围（m不超过255）

例子：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '\\\\([0-9] sticks?\\\\)'
    -> ORDER BY prod_name;
+----------------+
| prod_name      |
+----------------+
| TNT (1 stick)  |
| TNT (5 sticks) |
+----------------+
2 rows in set (0.00 sec)

此语句用了正则表达式\\\$[0-9] sticks?\\\$，其中\\\$匹配(，[0-9]匹配数字，sticks?匹配stick和sticks（?使s变得可选），\\\$匹配)。若没有?，stick与sticks的匹配将变得困难。

匹配连在一起的四个数字：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[[:digit:]]4'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

此语句用了正则表达式[[:digit:]]4，其中[:digit:]匹配任意数字，4指定前面的字符需出现4次。

正则表达式总是有不止一种方法表示一个表达式，上面例子也可以写成[0-9][0-9][0-9][0-9]。

定位符

目前所学的例子都是匹配一个串中任意位置的文本。为了匹配特定位置的文本，我们需要使用定位符。
定位元字符：

元字符	说明
^	文本的开始
$	文本的结尾
[[:<:]]	词的开始
[[:>:]]	词的结尾

查找以 . 或数字开头的产品：

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '^[0-9\\\\.]'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| .5 ton anvil |
| 1 ton anvil  |
| 2 ton anvil  |
+--------------+
3 rows in set (0.00 sec)

^{匹配串的开始。因此}[0-9\\\\.]只匹配以 . 或任意数字为串第一个字符的行。

^的双重用途 ^有两种用法。在集合中（用(和)定义），用它来否定集合。集合外，用来指串的开始处。
使REGEXP起类似LIKE的作用 前面所述，LIKE与REGEXP不同在于，LIKE匹配整个串而REGEXP匹配子串。利用定位符，用^开始每个表达式，用$结束每个表达式可以使REGEXP的作用与LIKE一样。
简单的正则表达式测试 可以在不使用数据库表的情况下，用SELECT来测试正则表达式。REGEXP检查总是返回0（不匹配）或1（匹配）。可以用带文字串的REGEXP来测试表达式：SELECT ‘hello’ REGEXP ‘[0-9]’;，这个例子返回0。

以上是关于用正则表达式进行搜索的主要内容，如果未能解决你的问题，请参考以下文章