正则表达式

Posted 2020-12-01 chunyun

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了正则表达式相关的知识，希望对你有一定的参考价值。

正则表达式基础整理

元字符

代码	说明
.	匹配除换行符以外的任意字符
w	匹配字母或数字或下划线或汉字
s	匹配任意的空白符
d	匹配数字
^	匹配字符串的开始
$	匹配字符串的结束
	匹配字符串的结束

重复匹配字符

代码	说明
*	重复零次或者多次
+	重复一次或者多次
？	重复零次或者一次
{n}	重复n次
{n,}	重复n次或者更多次
{n,m}	重复n次到m次

想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办？
很简单，你只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)。
我们也可以轻松地指定一个字符范围，像[0-9]代表的含意与d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于w（如果只考虑英文的话）。

用|把不同的规则分别表达。如：0d{2}-d{8}|0d{3}-d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。

反义

代码	说明
W	匹配任意不是字母，数字，下划线，汉字的字符
S	匹配任意不是空白符的字符
D	匹配任意非数字的字符
B	匹配不是单词开头或结束的位置
`[^x]`	匹配除了x以外的任意字符
`[^abcd]`	匹配除了aeiou这几个字母以外的任意字符

分组

重复单个字符直接在字符后面加上限定符就行了，但如果想要重复多个字符又该怎么办？你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作。
使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 ((A)(B(C))) 中，存在四个这样的组：

((A)(B(C)))
(A)
(B(C))
(C)
组零始终代表整个表达式。

之所以这样命名捕获组是因为在匹配中，保存了与这些组匹配的输入序列的每个子序列。捕获的子序列稍后可以通过 Back 引用在表达式中使用，也可以在匹配操作完成后从匹配器获取。

与组关联的捕获输入始终是与组最近匹配的子序列。如果由于量化的缘故再次计算了组，则在第二次计算失败时将保留其以前捕获的值（如果有的话）例如，将字符串 "aba" 与表达式 (a(b)?)+ 相匹配，会将第二组设置为 "b"。在每个匹配的开头，所有捕获的输入都会被丢弃。

以 (?) 开头的组是纯的非捕获组，它不捕获文本，也不针对组合计进行计数。

后向引用用于重复搜索前面某个分组匹配的文本。例如：
(w+)s+1可以用来匹配重复的单词，像go go, 或者kitty kitty。

也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?w+)(或者把尖括号换成‘也行：(?‘Word‘w+)),这样就把w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用k,所以上一个例子也可以写成这样：(?w+)s+k。

零宽断言

(?=exp)也叫零宽度正预测先行断言，它断言被匹配的字符串以表达式exp结尾但除了结尾以外的部分。比如w+(?=ing)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I‘m singing while you‘re dancing.时，它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=re)w+会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

代码	说明
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置

注释

小括号的另一种用途是通过语法(?#comment)来包含注释。例如：2[0-4]d(?#200-249)|250-5|[01]?d d?(?#0-199)。

贪婪与懒惰

代码	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可
能多的字符。考虑这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的
话，它会匹配整个字符串aabab。这被称为贪婪匹配。
有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，
只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用
最少的重复。现在看看懒惰版的例子吧：
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字
符）和ab（第四到第五个字符）。

以上是关于正则表达式的主要内容，如果未能解决你的问题，请参考以下文章

markdown 正则表达式模式片段

正则表达式匹配特定的 URL 片段而不是所有其他 URL 可能性

循环通过 python 正则表达式匹配

asp.net 使用正则表达式验证包含打开/关闭括号片段的属性字符串

攻破难啃的骨头-正则表达式（转）

正则表达式的贪婪和非贪婪模式