python正则表达式

Posted 2020-10-29

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python正则表达式相关的知识，希望对你有一定的参考价值。

一正则表达式简介

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。
Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。
compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。
一般查找电话号码的方式：
技术分享图片
正则表达式中常用的字符：

模式	描述
^	匹配字符串的起始
$	匹配字符串的结尾
.	匹配任意字符串，除了换行符。
[...]	用来表示一组字符，单独列出：[amk]，匹配‘a‘或‘m‘或‘k‘
[^...]	用来匹配不在列表中的元素[^abc]，匹配不存在a,b,c的情况
re*	匹配0个或多个表达式
re+	匹配1个或多个表达式
re?	匹配0个或1个有前面的正则表达式定义的片段，非贪婪模式
re{n}	匹配前面n个表达式或字符
re{,n}	匹配前面0-n个
re{n,}	匹配前面n-无穷个
re{m,n}	匹配前面m到n个
ab	匹配a 或 b
(re)	匹配括号捏的表达式，也表示一个组
\w	匹配字母数字和下划线
\W	匹配与\w相反
\s	匹配任意空白字符如\t \n \r \f
\S	与\s 相反
\d	匹配任意数字
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果存在换行，则只匹配到换行前的结束字符串
\G	匹配最后匹配完成的位置

二正则表达式中常用的函数：

1 re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
函数语法：
re.match(pattern, string, flags=0)
函数参数说明：
参数描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志
匹配成功re.match方法返回一个匹配的对象，否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法描述
group(num=0) 匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。
技术分享图片

\d 的使用：

\w 匹配字母，数字和下划线，{m,n} 如果大于m个被匹配到，则a.group()显示大于m个字符

匹配电话号码：

邮箱匹配规则：

2 re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法：
re.search(pattern, string, flags=0)
pattern:表示匹配的方法。
string:表示被匹配的字符串。
flags 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
匹配成功re.search方法返回一个匹配的对象，否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法描述
group(num=0) 匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。
技术分享图片

3 findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有。
语法格式为：
findall(string[, pos[, endpos]])
参数：
string : 待匹配的字符串。
pos : 可选参数，指定字符串的起始位置，默认为 0。
endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。
技术分享图片

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

4 分组：

1 位置分组匹配

/2 表示其必须与第二个分组的内容一致。
/1 表示其必须与第一个分组的内容一致。
技术分享图片

2 关键字分组匹配

其中，可以使用?P<别名>的方式来获取，其返回的结果是一个字典，可以使用字典的key进行提取其values值
技术分享图片

三 re 高级用法：

1 sub

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。
语法：
re.sub(pattern, repl, string, count=0, flags=0)
参数：
pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
批量替换字符串的方法：
总体清0。
技术分享图片
将其整体加上一个数字

2 split

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：
re.split(pattern, string[, maxsplit=0, flags=0])
参数：
参数描述
pattern 匹配的正则表达式
string 要匹配的字符串。
maxsplit 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
flags 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志
技术分享图片

3 python正则表达式的贪婪模式与非贪婪模式

其默认的模式是贪婪模式
技术分享图片
使用? 将其改变为非贪婪模式

4 re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。
语法格式为：
re.compile(pattern[, flags])
参数：
pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
1 re.I 忽略大小写
2 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
3 re.M 多行模式
4 re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
5 re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
6 re.X 为了增加可读性，忽略空格和 # 后面的注释
技术分享图片

5 re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。
re.finditer(pattern, string, flags=0)
参数：
参数描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志
技术分享图片