用正则表达式进行搜索
Posted 霖行
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用正则表达式进行搜索相关的知识,希望对你有一定的参考价值。
用正则表达式进行搜索
本章将学习如何在mysql WHERE子句内使用正则表达式来更好地控制数据过滤。
正则表达式介绍
前两章中使用匹配、比较和通配符查找数据,对于简单的过滤已经足够了。但面对更加复杂的条件,使用正则表达式可能更加方便快捷。
正则表达式是用来匹配文本的特殊的串(字符集合)。
所有种类的程序设计语言、文本编辑器、操作系统等都支持正则表达式。
正则表达式用正则表达式语言来建立。与其他语言一样,你需要学习相应的语法和指令。
学习更多内容 正则表达式的内容较多,本章介绍了正则表达式的基础。更多内容需要自己去了解。
使用MySQL正则表达式
MySQL用WHERE子句对正则表达式提供了初步的支持。
- 仅为正则表达式语言的一个子集 MySQL仅支持多数正则表达式实现的一个很小的子集。
基本字符匹配
检索prod_name列包含文本1000的行:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '1000'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| JetPack 1000 |
+--------------+
1 row in set (0.03 sec)
除关键字LIKE被REGEXP代替外,这条语句很像LIKE
语句(MySQL必知必会——第八章用通配符进行过滤)。它指示MySQL:REGEXP后所跟的东西作为正则表达式处理。
这个例子看不出正则表达式的优点,让我们再看一个例子:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '.000'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)
这里使用了正则表达式.000。’.'是正则表达式语言中一个特殊的字符。它表示匹配任意一个字符。
- LIKE与REGEXP 在LIKE和REGEXP之间有一个重要的差别。LIKE匹配整个列,而REGEXP在列值内进行匹配。当然,REGEXP可以通过定位符来匹配整个列。
- 匹配不区分大小写 MySQL中的正则表达式匹配不区分大小写。为区分大小写,可使用BINARY关键字,如WHERE prod_name REGEXP BINARY ‘JetPack .000’。
进行OR匹配
为搜索两个串之一,可以使用|:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '1000|2000'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)
语句中使用了正则表达式1000|2000. '|'为正则表达式的OR操作符,它表示匹配其中之一。
- 两个以上的OR条件 可以给出两个以上的OR条件。例如’1000|2000|3000’将匹配1000或2000或3000.
匹配几个字符之一
我们可以通过指定一组用 [ 和 ] 括起来的字符,来匹配特定的单一字符。
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '[123] Ton'
-> ORDER BY prod_name;
+-------------+
| prod_name |
+-------------+
| 1 ton anvil |
| 2 ton anvil |
+-------------+
2 rows in set (0.00 sec)
这里使用了正则表达式[123] Ton。[123]定义一组字符,它的意思是匹配1或2或3。
[]是另一种形式的OR语句。而[123] Ton是[1|2|3] Ton的缩写。
有时候带[]是必要的:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '1|2|3 Ton'
-> ORDER BY prod_name;
+---------------+
| prod_name |
+---------------+
| 1 ton anvil |
| 2 ton anvil |
| JetPack 1000 |
| JetPack 2000 |
| TNT (1 stick) |
+---------------+
5 rows in set (0.00 sec)
这不是预期结果。因为’1|2|3 Ton’匹配的是1或2或3 Ton,而不是1 Ton或2 Ton或3 Ton。所以我们应该用’[1|2|3] Ton’来进行匹配。
字符集合也可以被否定,即,它们将匹配除指定字符外的任何东西。否定字符集,只需在集合开始处放置一个^即可。例如[^123]。
匹配范围
集合可用来定义要匹配的一个或多个字符。例如,匹配数字0到9:[0123456789],我们可以简化这种类型的集合,用-来定义一个范围,例如,匹配数字0到9:[0-9]。也可以[3-6]等等。范围不一定只是数值,例如[a-z]匹配任意字母。
应用:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '[1-5] Ton'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| .5 ton anvil |
| 1 ton anvil |
| 2 ton anvil |
+--------------+
3 rows in set (0.00 sec)
这里使用正则表达式[1-5] Ton,[1-5]定义了个范围,匹配1到5.
匹配特殊字符
正则表达式语言由特殊含义的特殊字符构成,例如,’.’、’[]’、’|’ 和 ‘-’ 等。但我们如何匹配这些特殊字符呢?
搜索包含.字符的值,尝试:
mysql> SELECT vend_name
-> FROM vendors
-> WHERE vend_name REGEXP '.'
-> ORDER BY vend_name;
+----------------+
| vend_name |
+----------------+
| ACME |
| Anvils R Us |
| Furball Inc. |
| Jet Set |
| Jouets Et Ours |
| LT Supplies |
+----------------+
6 rows in set (0.01 sec)
这条语句并不符合预期结果,’.’ 匹配任意字符,所以每个行都被检索出来了。
为了匹配特殊字符,必须用\\\\作为前导。\\\\-表示查找-,\\\\.表示查找 ‘.’ 。
mysql> SELECT vend_name
-> FROM vendors
-> WHERE vend_name REGEXP '\\\\.'
-> ORDER BY vend_name;
+--------------+
| vend_name |
+--------------+
| Furball Inc. |
+--------------+
1 row in set (0.00 sec)
这个语句符合预期结果,\\\\.匹配 ‘.’,最后只检索出目标的一行。这个处理我们称作转义(escaping),正则表达式中有特殊意义的字符都需要经过转义才可匹配。
\\\\也可用来引用元字符(具有特殊意义的字符):
元字符 | 说明 |
---|---|
\\\\f | 换页 |
\\\\n | 换行 |
\\\\r | 回车 |
\\\\t | 制表 |
\\\\v | 纵向制表 |
- 匹配\\ 为了匹配反斜杠(\\)字符本身,需要使用\\\\\\。
- \\或\\\\? 多数正则表达式实现使用单个反斜杠转义特殊字符。但MySQL要求两个反斜杠(MySQL自己解释一个,正则表达式库解释另一个)。
匹配字符类
为了方便工作,对一些常用的匹配,我们可以使用预定义的字符集,称为字符类(character class)。
类 | 说明 |
---|---|
[:alnum:] | 任意字母和数字(同[a-zA-Z0-9]) |
[:alpha:] | 任意字母(同[a-zA-Z]) |
[:blank:] | 空格和制表(同[\\\\t]) |
[:cntrl:] | ASCⅡ控制字符(ASCⅡ0到31和127) |
[:digit:] | 任意数字(同[0-9]) |
[:graph:] | 与[:print:]相同,但不包括空格 |
[:lower:] | 任意小写字母(同[a-z]) |
[:print:] | 任意可打印字符 |
[:punct:] | 除[:alnum:]和[:cntrl:]外的字符 |
[:space:] | 包括空格在内的任意空白字符(同[\\\\f\\\\n\\\\r\\\\t\\\\v]) |
[:upper:] | 任意大写字母(同[A-Z]) |
[:xdigit:] | 任意十六进制数字(同[a-fA-F0-9]) |
匹配多个实例
目前为止的正则表达式都是匹配一次出现,如果存在,就会被检索出。但有时我们需要对匹配的数目进行更强的控制。我们可以利用正则表达式的重复元字符来完成。
重复元字符:
元字符 | 说明 |
---|---|
* | 0个或多个匹配 |
+ | 1个或多个匹配(等于1,) |
? | 0个或一个匹配(等于0,1) |
n | 指定数目的匹配 |
n, | 不少于指定数目的匹配 |
n,m | 匹配数目的范围(m不超过255) |
例子:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '\\\\([0-9] sticks?\\\\)'
-> ORDER BY prod_name;
+----------------+
| prod_name |
+----------------+
| TNT (1 stick) |
| TNT (5 sticks) |
+----------------+
2 rows in set (0.00 sec)
此语句用了正则表达式\\\\([0-9] sticks?\\\\),其中\\\\(匹配(,[0-9]匹配数字,sticks?匹配stick和sticks(?使s变得可选),\\\\)匹配)。若没有?,stick与sticks的匹配将变得困难。
匹配连在一起的四个数字:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '[[:digit:]]4'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)
此语句用了正则表达式[[:digit:]]4,其中[:digit:]匹配任意数字,4指定前面的字符需出现4次。
正则表达式总是有不止一种方法表示一个表达式,上面例子也可以写成[0-9][0-9][0-9][0-9]。
定位符
目前所学的例子都是匹配一个串中任意位置的文本。为了匹配特定位置的文本,我们需要使用定位符。
定位元字符:
元字符 | 说明 |
---|---|
^ | 文本的开始 |
$ | 文本的结尾 |
[[:<:]] | 词的开始 |
[[:>:]] | 词的结尾 |
查找以 . 或数字开头的产品:
mysql> SELECT prod_name
-> FROM products
-> WHERE prod_name REGEXP '^[0-9\\\\.]'
-> ORDER BY prod_name;
+--------------+
| prod_name |
+--------------+
| .5 ton anvil |
| 1 ton anvil |
| 2 ton anvil |
+--------------+
3 rows in set (0.00 sec)
匹配串的开始。因此[0-9\\\\.]只匹配以 . 或任意数字为串第一个字符的行。
- ^的双重用途 ^有两种用法。在集合中(用(和)定义),用它来否定集合。集合外,用来指串的开始处。
- 使REGEXP起类似LIKE的作用 前面所述,LIKE与REGEXP不同在于,LIKE匹配整个串而REGEXP匹配子串。利用定位符,用^开始每个表达式,用$结束每个表达式可以使REGEXP的作用与LIKE一样。
- 简单的正则表达式测试 可以在不使用数据库表的情况下,用SELECT来测试正则表达式。REGEXP检查总是返回0(不匹配)或1(匹配)。可以用带文字串的REGEXP来测试表达式:SELECT ‘hello’ REGEXP ‘[0-9]’;,这个例子返回0。
以上是关于用正则表达式进行搜索的主要内容,如果未能解决你的问题,请参考以下文章