用正则表达式进行搜索

Posted 霖行

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用正则表达式进行搜索相关的知识,希望对你有一定的参考价值。

用正则表达式进行搜索

本章将学习如何在mysql WHERE子句内使用正则表达式来更好地控制数据过滤。

正则表达式介绍

前两章中使用匹配、比较和通配符查找数据,对于简单的过滤已经足够了。但面对更加复杂的条件,使用正则表达式可能更加方便快捷。

正则表达式是用来匹配文本的特殊的串(字符集合)。

所有种类的程序设计语言、文本编辑器、操作系统等都支持正则表达式。

正则表达式用正则表达式语言来建立。与其他语言一样,你需要学习相应的语法和指令。

学习更多内容 正则表达式的内容较多,本章介绍了正则表达式的基础。更多内容需要自己去了解。


使用MySQL正则表达式

MySQL用WHERE子句对正则表达式提供了初步的支持。

  • 仅为正则表达式语言的一个子集 MySQL仅支持多数正则表达式实现的一个很小的子集。

基本字符匹配

检索prod_name列包含文本1000的行:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
+--------------+
1 row in set (0.03 sec)

除关键字LIKE被REGEXP代替外,这条语句很像LIKE
语句(MySQL必知必会——第八章用通配符进行过滤)。它指示MySQL:REGEXP后所跟的东西作为正则表达式处理。

这个例子看不出正则表达式的优点,让我们再看一个例子:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '.000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

这里使用了正则表达式.000。’.'是正则表达式语言中一个特殊的字符。它表示匹配任意一个字符。

  • LIKE与REGEXP 在LIKE和REGEXP之间有一个重要的差别。LIKE匹配整个列,而REGEXP在列值内进行匹配。当然,REGEXP可以通过定位符来匹配整个列。
  • 匹配不区分大小写 MySQL中的正则表达式匹配不区分大小写。为区分大小写,可使用BINARY关键字,如WHERE prod_name REGEXP BINARY ‘JetPack .000’。

进行OR匹配

为搜索两个串之一,可以使用|:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1000|2000'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

语句中使用了正则表达式1000|2000. '|'为正则表达式的OR操作符,它表示匹配其中之一。

  • 两个以上的OR条件 可以给出两个以上的OR条件。例如’1000|2000|3000’将匹配1000或2000或3000.

匹配几个字符之一

我们可以通过指定一组用 [ 和 ] 括起来的字符,来匹配特定的单一字符。

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[123] Ton'
    -> ORDER BY prod_name;
+-------------+
| prod_name   |
+-------------+
| 1 ton anvil |
| 2 ton anvil |
+-------------+
2 rows in set (0.00 sec)

这里使用了正则表达式[123] Ton。[123]定义一组字符,它的意思是匹配1或2或3。

[]是另一种形式的OR语句。而[123] Ton是[1|2|3] Ton的缩写。

有时候带[]是必要的:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '1|2|3 Ton'
    -> ORDER BY prod_name;
+---------------+
| prod_name     |
+---------------+
| 1 ton anvil   |
| 2 ton anvil   |
| JetPack 1000  |
| JetPack 2000  |
| TNT (1 stick) |
+---------------+
5 rows in set (0.00 sec)

这不是预期结果。因为’1|2|3 Ton’匹配的是1或2或3 Ton,而不是1 Ton或2 Ton或3 Ton。所以我们应该用’[1|2|3] Ton’来进行匹配。

字符集合也可以被否定,即,它们将匹配除指定字符外的任何东西。否定字符集,只需在集合开始处放置一个^即可。例如[^123]。

匹配范围

集合可用来定义要匹配的一个或多个字符。例如,匹配数字0到9:[0123456789],我们可以简化这种类型的集合,用-来定义一个范围,例如,匹配数字0到9:[0-9]。也可以[3-6]等等。范围不一定只是数值,例如[a-z]匹配任意字母。

应用:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[1-5] Ton'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| .5 ton anvil |
| 1 ton anvil  |
| 2 ton anvil  |
+--------------+
3 rows in set (0.00 sec)

这里使用正则表达式[1-5] Ton,[1-5]定义了个范围,匹配1到5.

匹配特殊字符

正则表达式语言由特殊含义的特殊字符构成,例如,’.’’[]’’|’‘-’ 等。但我们如何匹配这些特殊字符呢?

搜索包含.字符的值,尝试:

mysql> SELECT vend_name
    -> FROM vendors
    -> WHERE vend_name REGEXP '.'
    -> ORDER BY vend_name;
+----------------+
| vend_name      |
+----------------+
| ACME           |
| Anvils R Us    |
| Furball Inc.   |
| Jet Set        |
| Jouets Et Ours |
| LT Supplies    |
+----------------+
6 rows in set (0.01 sec)

这条语句并不符合预期结果,’.’ 匹配任意字符,所以每个行都被检索出来了。

为了匹配特殊字符,必须用\\\\作为前导。\\\\-表示查找-,\\\\.表示查找 ‘.’

mysql> SELECT vend_name
    -> FROM vendors
    -> WHERE vend_name REGEXP '\\\\.'
    -> ORDER BY vend_name;
+--------------+
| vend_name    |
+--------------+
| Furball Inc. |
+--------------+
1 row in set (0.00 sec)

这个语句符合预期结果,\\\\.匹配 ‘.’,最后只检索出目标的一行。这个处理我们称作转义(escaping),正则表达式中有特殊意义的字符都需要经过转义才可匹配。

\\\\也可用来引用元字符(具有特殊意义的字符):

元字符说明
\\\\f换页
\\\\n换行
\\\\r回车
\\\\t制表
\\\\v纵向制表
  • 匹配\\ 为了匹配反斜杠(\\)字符本身,需要使用\\\\\\。
  • \\或\\\\? 多数正则表达式实现使用单个反斜杠转义特殊字符。但MySQL要求两个反斜杠(MySQL自己解释一个,正则表达式库解释另一个)。

匹配字符类

为了方便工作,对一些常用的匹配,我们可以使用预定义的字符集,称为字符类(character class)。

说明
[:alnum:]任意字母和数字(同[a-zA-Z0-9])
[:alpha:]任意字母(同[a-zA-Z])
[:blank:]空格和制表(同[\\\\t])
[:cntrl:]ASCⅡ控制字符(ASCⅡ0到31和127)
[:digit:]任意数字(同[0-9])
[:graph:]与[:print:]相同,但不包括空格
[:lower:]任意小写字母(同[a-z])
[:print:]任意可打印字符
[:punct:]除[:alnum:]和[:cntrl:]外的字符
[:space:]包括空格在内的任意空白字符(同[\\\\f\\\\n\\\\r\\\\t\\\\v])
[:upper:]任意大写字母(同[A-Z])
[:xdigit:]任意十六进制数字(同[a-fA-F0-9])

匹配多个实例

目前为止的正则表达式都是匹配一次出现,如果存在,就会被检索出。但有时我们需要对匹配的数目进行更强的控制。我们可以利用正则表达式的重复元字符来完成。

重复元字符:

元字符说明
*0个或多个匹配
+1个或多个匹配(等于1,)
?0个或一个匹配(等于0,1)
n指定数目的匹配
n,不少于指定数目的匹配
n,m匹配数目的范围(m不超过255)

例子:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '\\\\([0-9] sticks?\\\\)'
    -> ORDER BY prod_name;
+----------------+
| prod_name      |
+----------------+
| TNT (1 stick)  |
| TNT (5 sticks) |
+----------------+
2 rows in set (0.00 sec)

此语句用了正则表达式\\\\([0-9] sticks?\\\\),其中\\\\(匹配(,[0-9]匹配数字,sticks?匹配stick和sticks(?使s变得可选),\\\\)匹配)。若没有?,stick与sticks的匹配将变得困难。

匹配连在一起的四个数字:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '[[:digit:]]4'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| JetPack 1000 |
| JetPack 2000 |
+--------------+
2 rows in set (0.00 sec)

此语句用了正则表达式[[:digit:]]4,其中[:digit:]匹配任意数字,4指定前面的字符需出现4次。

正则表达式总是有不止一种方法表示一个表达式,上面例子也可以写成[0-9][0-9][0-9][0-9]。

定位符

目前所学的例子都是匹配一个串中任意位置的文本。为了匹配特定位置的文本,我们需要使用定位符。
定位元字符:

元字符说明
^文本的开始
$文本的结尾
[[:<:]]词的开始
[[:>:]]词的结尾

查找以 . 或数字开头的产品:

mysql> SELECT prod_name
    -> FROM products
    -> WHERE prod_name REGEXP '^[0-9\\\\.]'
    -> ORDER BY prod_name;
+--------------+
| prod_name    |
+--------------+
| .5 ton anvil |
| 1 ton anvil  |
| 2 ton anvil  |
+--------------+
3 rows in set (0.00 sec)

匹配串的开始。因此[0-9\\\\.]只匹配以 . 或任意数字为串第一个字符的行。

  • ^的双重用途 ^有两种用法。在集合中(用(和)定义),用它来否定集合。集合外,用来指串的开始处。
  • 使REGEXP起类似LIKE的作用 前面所述,LIKE与REGEXP不同在于,LIKE匹配整个串而REGEXP匹配子串。利用定位符,用^开始每个表达式,用$结束每个表达式可以使REGEXP的作用与LIKE一样。
  • 简单的正则表达式测试 可以在不使用数据库表的情况下,用SELECT来测试正则表达式。REGEXP检查总是返回0(不匹配)或1(匹配)。可以用带文字串的REGEXP来测试表达式:SELECT ‘hello’ REGEXP ‘[0-9]’;,这个例子返回0。

以上是关于用正则表达式进行搜索的主要内容,如果未能解决你的问题,请参考以下文章

用正则表达式regexp进行高级搜索数据

[MySQL] 用正则表达式进行搜索

mysql必知必会--用正则表达式 进行搜索

第九章:用正则表达式进行搜索

使用正则表达式进行搜索

Mysql基础第十二天,用正则表达式进行搜索