正则表达式——字符类分支条件分组

Posted hsh17

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式——字符类分支条件分组相关的知识,希望对你有一定的参考价值。

思路来源:http://deerchao.net/tutorials/regex/regex.htm#alternative

感谢deerchao,写的比菜鸟教程好太多了。现在感觉菜鸟教程可能就是翻译了一些doc,而且是思路结构不太清晰的doc……

进入正题,主要还是看了教程后自己的理解。

 

字符类

字符类,即为如 [aeiou]、[1-9]、[19]、[.?!] 等用英文中括号括起字符的字符集合。

解释与辨析:

[aeiou]:匹配a 或 e 或 i 或 o 或 u 。

[0-9]:匹配 0 或 1 或 2 或 3……0-9 中的一个数字。(含义与 \\d 完全一致:一位数字)

[09]:匹配 0 或者是 9 。

[.?!]:匹配 . 或 ?或是 !

同理[a-z0-9A-Z_]也基本等同于 \\w(匹配非特殊字符,即a-z、A-Z、0-9、下划线、汉字)。

#补充 \\W 的意思:匹配特殊字符,即非字母、非数字、非下划线、非汉字。

 

所以中括号[]就像是划定了一个字符范围一样。接下来是一个复杂的表达式: \\(?0\\d{2}[) -]?\\d{8}

这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或是02912345678等等。

对它进行分析:首先是\\(对左括号的转义,同时加?代表可1可无;然后是一个数字0\\d{2},代表0和两个数字;往后就是一个字符类范围[) -]?,左括号、空格、hyphen三选一可1可无;最后是\\d{8}八个数字。

 

不幸的是这样的表达式也会匹配到一些错误的电话号码格式,如010)12345678、(022-87654321。

技术图片

所以引入下一个知识点:分支条件。

 

 

分支条件

正则表达式中的分支条件指:我现在有这几种匹配规则,如果对象满足其中任意一种匹配规则就成功。具体方法是用 | 把不同的匹配规则分开。

0\\d{2}-\\d{8}|0\\d{3}-\\d{7}这个表达式能匹配两种带有hyphen连接的匹配规则:一种是三位区号,8位本地号(如010-12345678);一种是4位区号,7位本地号(0376-2233445)。

\\(0\\d{2}\\)[- ]?\\d{8}|0\\d{2}[- ]?\\d{8}这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用(两种匹配规则),区号与本地号间可以用hyphen或空格间隔,也可以都不用,但不能都用。我觉得[ -]?可以这样理解:先[ -]二选一,再?对二选一出来的东西其判断0或1。

\\d{5}-\\d{4}|\\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或是用hyphen间隔的9位数字。这个例子能说明一个注意点:使用分支条件时,要注意不同条件之间的顺序

如果你把上面的表达式改成\\d{5}|\\d{5}-\\d{4}(两规则前后调换)的话,那就只会匹配5位的邮编(以及9位邮编的前5位)。原因是当系统在匹配分支条件中的不同规则时,将会从左到右地测试每个规则。当满足了第一个分支规则的话,就不会再去测试第二个分支规则了。如下图↓所诠释的:

技术图片

 

 

 

分组

我们已经知道如何重复单个字符(在字符后添加限定符+*?即可)。但如果我们需要重复多个字符该怎么办?故引入概念:分组。

分组就是在多个字符(子表达式)的左右添加小括号,然后加{n}。就指定了这个子表达式的重复次数n了。

(\\d{1,3}\\.){3}\\d{1,3} 是一个简单的IP地址匹配表达式。

分析这个表达式:(){3}代表它是一个重复三次的分组,括号内\\d{1,3}\\.指一到三位数字加一个point点,合在一起 (\\d{1,3}\\.){3} 就是匹配三位数字加上一个point点(这个分组)重复3次,最后再加上一个一到三位的数字(\\d{1,3})。

  • 如果不在point点前放置转义符号,原point点指 匹配除了换行符(\\n)之外的任意一个字符。
  • {m,n}指表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配"ba"或"baa"或"baaa"。

不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组选择。

  • IP地址中每个数字都不能大于255。同时, 01.02.03.04 这种数字前面带有0的地址,也是正确的IP地址。IP 地址里的数字可以包含“前导 0 (leading zeroes)“。

这个表达式描述了一个正确的IP地址:((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)。

理解这个表达式的关键是理解2[0-4]\\d|25[0-5]|[01]?\\d\\d?。分析它!

整体结构为带有两个 | 的三分组结构。

首先是 2[0-4]\\d:数字2 + 0-4中的一个数字 + 0-9中的一个数字;                     200-249

中间是 25[0-5]:数字2 + 数字5 + 0-5中的一个数字;                                        250-255

最后是[01]?\\d\\d?:0或1(可1可无) + 一个数字 + 一个数字(可1可无)        0-199

以上是关于正则表达式——字符类分支条件分组的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式

正则表达式

偷学Python第三十一天:Python正则表达式的语法以及re模块的使用

偷学Python第三十一天:Python正则表达式的语法以及re模块的使用

正则表达式30分钟入门

正则表达式30min