Python正则表达式

Posted 2021-01-09 longblogs

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python正则表达式相关的知识，希望对你有一定的参考价值。

1 简介

正则表达式（regex）：是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，能按照某种模式匹配一系列有相似特征的字符串。

Python通过标准库中的re模块来支持正则表达式。

2 特殊字符和符号（元字符）

2.1 常见正则表达式符号和特殊字符

表示法	描述	正则表达式示例
符号
literal	匹配文本字符串的字面值literal	foo
re1\|re2	匹配正则表达式re1 或者re2	foo\|bar
.	匹配任何字符（除了之外）	b.b
^	匹配字符串起始部分	^Dear
$	匹配字符串终止部分	/bin/*sh$
*	匹配0 次或者多次前面出现的正则表达式	[A-Za-z0-9]*
+	匹配1 次或者多次前面出现的正则表达式	[a-z]+.com
?	匹配0 次或者1 次前面出现的正则表达式	goo?
{N}	匹配N 次前面出现的正则表达式	[0-9]{3}
{M,N}	匹配M～N 次前面出现的正则表达式	[0-9]{5,9}
[…]	匹配来自字符集的任意单一字符	[aeiou]
[..x?y..]	匹配x～y 范围中的任意单一字符	[0-9], [A-Za-z]
[^…]	不匹配此字符集中出现的任何一个字符，包括某一范围的字符（如果在此字符集中出现）	[^aeiou], [^A-Za-z0-9]
(*\|+\|?\|{})?	用于匹配上面频繁出现/重复出现符号的非贪婪版本（*、+、?、{}）	.*?[a-z]
(…)	匹配封闭的正则表达式，然后另存为子组	([0-9]{3})?,f(oo\|u)bar
特殊字符
d	匹配任何十进制数字，与[0-9]一致（D 与d 相反，不匹配任何非数值型的数字）	datad+.txt
w	匹配任何字母数字字符，与[A-Za-z0-9_]相同（W与之相反）	[A-Za-z_]w+
s	匹配任何空格字符，与[ vf]相同（S 与之相反）	ofsthe
	匹配任何单词边界（B 与之相反）	The
N	匹配已保存的子组N（参见上面的(…))	price: 16
c	逐字匹配任何特殊字符c（即，仅按照字面意义匹配，不匹配特殊含义）	., \\, *
A()	匹配字符串的起始（结束）（另见上面介绍的^和$）	ADear
扩展表示法
(?iLmsux)	在正则表达式中嵌入一个或者多个特殊“标记”参数（或者通过函数/方法）	（?x），（?im）
(?:…)	表示一个匹配不用保存的分组	(?:w+.)*
(?P<name>…)	像一个仅由name 标识而不是数字ID 标识的正则分组匹配	(?P<data>)
(?P=name)	在同一字符串中匹配由(?P<name>)分组的之前文本	(?P=data)
(?#…)	表示注释，所有内容都被忽略	(?#comment)
(?=…)	匹配条件是如果…出现在之后的位置，而不使用输入字符串；称作正向前视断言	(?=.com)
(?!…)	匹配条件是如果…不出现在之后的位置，而不使用输入字符串；称作负向前视断言	(?!.net)
(?<=…)	匹配条件是如果…出现在之前的位置，而不使用输入字符串；称作正向后视断言	(?<=800-)
(?<!…)	匹配条件是如果…不出现在之前的位置，而不使用输入字符串；称作负向后视断言	(?<!192.168.)
(?(id/name)Y\|N )	如果分组所提供的编号id或别名为name的组匹配到字符，需要匹配Y，否则需要匹配N。\|N可以省略	(?(1)y\|x)

2.2 示例

1）择一匹配(或) |

bat | bit 匹配字符串bat或者bit

2）匹配任意单个字符 .

f.o 匹配在字母f和o之间的任意一个字符，例如fao、f2o、f#o等

3）匹配字符串起始部分 ^或着A

^From 或者 AFrom 匹配任何以From作为起始的字符串

4）匹配字符串结尾部分 $或着

/bin/bash$ 或者/bin/bash 匹配任何以/bin/bash作为结尾的字符串

5）匹配单词边界与B

the 仅仅匹配单词the

er 匹配任何以er结尾的单词，可以匹配never中的er，不能匹配verb中的er

erB 匹配任何包含但并不以er作为结尾的单词，可以匹配verb中的er，不能匹配never中的er

6）匹配来自字符集的任意单一字符 []

b[aeiu]t 匹配bat、bet、bit、but

7）限定范围和否定, 匹配范围中的任意单一字符

[A-Z]、[a-z]、[0-9] 用于表示大写字母、小写字母和数值数字

[ena-c] 匹配e、n、a、b、c中任一字符

[^a-c] 不匹配a、b、c任何一个字符

8） *、+、?、{}

dot? 可匹配do、dot

dot* 匹配0次或者多次t,例：do、dot、dott、dottt等

dot+ 匹配1次或者多次t，例：dot、dott、dottt等

0{2} 可匹配00

0{2,4} 可匹配00、000、0000

贪婪匹配

　　　　字符串abcddc使用正则ab.*c可匹配abcddc

非贪婪匹配

　　　　字符串abcddc使用正则ab.*?c可匹配abc

9）分组 ()

分组的作用：

　　(1)将某些规律看成是一组，然后进行组级别的重复

　　(2)分组后，可以通过后向引用简化表达式（1）；后向引用，引用的仅仅是文本内容（引用的是结果），而不是正则表达式

例：

d{1,3}.d{1,3}.d{1,3}.d{1,3} 可以把. d{1,3}作为一个组，变为d{1,3}(.d{1,3}){3}
<title>.*</title> 可以写成<(title)>.*</1>，整个表达式<(title)>.*</1>为第0组，然后从左到右依次分组编号，(title)为第1组
(d{1,3})(.1){3}这个表达式实际匹配是四个数都相同的IP地址，如：123.123.123.123

10）扩展表示法

尽管使用圆括号，但是只有(?P<name>)表述一个分组匹配，所有其他的都没有创建一个分组