python中re库的常见用法

Posted 2023-04-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python中re库的常见用法相关的知识，希望对你有一定的参考价值。

参考技术A . 匹配除换行符外的任意字符
\d 匹配数字
\D 匹配非数字
\w 匹配数字字母下划线，支持中文
\W 小写w的反集

[abc] 匹配abc中任意一个
[a-f] 匹配字母a到f中的任意一个
x|y 匹配x或者y
^ 匹配字符串的开头
$ 匹配字符串的结尾

3,5 匹配次数，最少3个，最多5个
3, 至少匹配3次
* 匹配前一个字符，0次或多次
+ 匹配前一个字符，1次或多次

? 当前面不是数量表达式时，代表匹配0次或1次

举个栗子：
findall()函数的作用是匹配所有符合条件字符串，并以列表形式返回

由于.是匹配除换行符外的所有字符，3,5 匹配次数，最少3个，最多5个，在默认的贪婪模式下会匹配最多的字符，所以在列表中，字母a开头的字符串后面都跟了5个字符。

可以看到在非贪婪模式下，列表中的每一项都匹配最少的字符数。

从前往后，匹配到符合条件的最短的每一个字符串

边界字符：
^ 限定开头
$ 限定结尾

匹配分组：
() 提取出来的只有括号里匹配到的部分

上文中已经用到这个方法了，返回匹配到的字符串列表，如果没有匹配到的内容，则返回空列表。

flags参数是可以省略的，不省略时代表具有其他特殊的功能，如忽略大小写，忽略换行符等，re.S代表匹配时忽略换行符

re.search()和re.findall()的参数是一样的，只是返回结果不同，如果匹配到了，就返回该结果的正则表达式对象；如果没有匹配到，则返回None

使用re.search()返回匹配到的第一个字符串的正则表达式对象，找到了就会停止匹配。因此这个函数比较适合在一个大文本中找第一个出现的字符串。

若想让这个字符串展示出来，还需要借助group()函数。

举个栗子：

这个函数的作用是将正则表达式编译为一个正则表达式对象，如果要多次使用这个正则表达式的话，可以先编译，然后复用，使程序更高效一些，对这个对象继续使用.match(string)就可以显示匹配到的正则表达式对象，后续如果想要获取具体内容的话，和上面是一眼国的，直接使用group(0)就可以啦。

如果不考虑复用的话，和re.mach(pattern, string)的效果是一样的。

从运行结果也可以看出，re.match()和re.search()的区别，虽然二者都会返回匹配到的正则表达式对象，但是re.match()是从字符串的最开始位置开始匹配的，如果最开始的字符不匹配则会直接返回None；而re.search()则会一直往后找，直到找到第一个符合条件的字符串。

re.sub()函数用于替换字符串中的匹配项

举个栗子：

将所有数字替换为了一个空格。

#yyds干货盘点# Python 内置模块之 re 库，一文搞定正则表达式初阶用法，滚雪球学 Python 第 13 篇

十三、Python 内置模块之 re 库，一文搞定正则表达式初阶用法

13.1 re 库的应用

re 库是 Python 中处理正则表达式的标准库，本篇博客介绍 re 库的同时，会简单介绍一下正则表达式语法，如果想深入学习正则表达式，还需要好好下一番功夫。

13.1.1 正则表达式语法

正则表达式语法由字符和操作符构成，初期阶段掌握下述这些内容即可。

操作符	说明	例子
.	任何单个字符，极少不能匹配
[]	字符集，对单个字符给出取值范围	[abc] 表示匹配 a、b、c，[a-z] 表示 a 到 z 单个字符
[\\^]	非字符集，对单个字符给出排除范围	[\\^abc] 表示匹配非 a、非 b、非 c 的单个字符
*	前一个字符 0 次或无限次扩展	abc* 表示 ab、abc、abcc、abccc 等
+	前一个字符 1 次或无限次扩展	abc+ 表示 abc、abcc、abccc 等
?	前一个字符 0 次或 1 次	abc? 表示 ab、abc
\|	左右表达式任意一个	abc\|def 表示 abc 或者 def
m	扩展前 1 个字符 m 次	ab2c，表示 abbc
m,n	扩展前 1 个字符 m 到 n 次	ab1,2c，表示 abc、abbc
\\^	匹配字符串开头	\\^abc 表示 abc 在字符串开头
\\$	匹配字符串结尾	abc$ 表示 abc 在字符串结尾
()	分组标记，内部仅能使用 \| 操作符	(abc) 表示 abc，(a	b) 表示 a、b
\\d	数字，等价于 [0-9]
\\w	字符，等价于 [A-Za-z0-9]

以上表示仅仅为正则表达最基础部分内容，如果希望深入研究正则表达式，建议寻找更加全面的资料进行学习，本文只做药引。

13.1.2 re 库基本用法

re 库主要函数如下：

基础函数：compile；
功能函数：search、match、findall、split、finditer、sub。

在正式学习之前，先了解一下原生字符串。

在 Python 中，表示原生字符串，需要在字符串前面加上 r。
例如 my_str = iam xiangpica 在程序中会直接报错，如果希望字符串中可以正常运行，需要加上转移字符 \\，修改为 my_str = i\\am xiangpica。
但这样结合上文正则表达式中的操作符，就会出现问题，因为 \\ 在正则表达式中是有真实含义的，如果你使用 re 库去匹配字符串中的 \\，那需要使用 4 个反斜杠，为了避免这种情况出现，引入了原生字符串概念。

# 不使用原生字符串的正则表达式  "\\\\\\\\"
# 使用原生字符串的正则表达式 r"\\\\"

在后文会有实际的应用。

接下来在学习一个案例，例如下述代码：

my_str=C:\\number

print(my_str)

C:
umber

本段代码的输出效果如下，\\n 被解析成了换行，如果想要屏蔽这种现象，使用 r 即可：

my_str=rC:\\number

print(my_str)

输出 C:\\number。

13.2 re 库相关函数说明

13.2.1 re.search 函数

该函数用于，在字符串中搜索正则表达式匹配到的第一个位置的值，返回 match 对象。
函数原型如下：

re.search(pattern,string,flags=0)

需求：在字符串 梦想橡皮擦 good good 中匹配 橡皮擦。

import re
my_str=梦想橡皮擦 good good
pattern = r橡皮擦

ret = re.search(pattern,my_str)
print(ret)

返回结果：<re.Match object; span=(2, 5), match=橡皮擦>。

search 函数的第三个参数 flags 表示正则表达式使用时的控制标记。

re.I，re.IGNORECASE：忽略正则表达式的大小写；
re.M，re.MULTILINE：正则表达式中的 \\^ 操作符能够将给定字符串的每行当做匹配的开始；
re.S，re.DOTALL：正则表达式中的 . 操作符能够匹配所有字符。

最后将匹配到的字符串进行输出，使用下述代码即可实现。

import re
my_str = 梦想橡皮擦 good good
pattern = r橡皮擦

ret = re.search(pattern, my_str)
if ret:
    print(ret.group(0))

13.2.2 re.match 函数

该函数用于在目标字符串开始位置去匹配正则表达式，返回 match 对象，未匹配成功返回 None，函数原型如下：

re.match(pattern,string,flags=0)

一定要注意是目标字符串开始位置。

import re
my_str = 梦想橡皮擦 good good
pattern = r梦 # 匹配到数据
pattern = rgood # 匹配不到数据

ret = re.match(pattern, my_str)
if ret:
    print(ret.group(0))

re.match 和 re.search 方法都是一次最多返回一个匹配对象，如果希望返回多个值，可以通过在 pattern 里加括号构造匹配组返回多个字符串。

13.2.3 re.findall 函数

该函数用于搜索字符串，以列表格式返回全部匹配到的字符串，函数原型如下：

re.findall(pattern,string,flags=0)

测试代码如下：

import re
my_str = 梦想橡皮擦 good good
pattern = rgood
ret = re.findall(pattern, my_str)
print(ret)

13.2.4 re.split 函数

该函数将一个字符串按照正则表达式匹配结果进行分割，返回一个列表。
函数原型如下：

re.split(pattern, string, maxsplit=0, flags=0)

re.split 函数进行分割的时候，如果正则表达式匹配到的字符恰好在字符串开头或者结尾，返回分割后的字符串列表首尾都多了空格，需要手动去除，例如下述代码：

import re
my_str = 1梦想橡皮擦1good1good1

pattern = r\\d

ret = re.split(pattern, my_str)

print(ret)

运行结果：

[, 梦想橡皮擦, good, good, ]

切换为中间的内容，则能正确的分割字符串。

import re
my_str = 1梦想橡皮擦1good1good1

pattern = rgood

ret = re.split(pattern, my_str)

print(ret)

如果在 pattern 中捕获到括号，那括号中匹配到的结果也会在返回的列表中。

import re
my_str = 1梦想橡皮擦1good1good1

pattern = r(good)

ret = re.split(pattern, my_str)

print(ret)

运行结果，你可以对比带括号和不带括号的区别进行学习：

[1梦想橡皮擦1, good, 1, good, 1]

maxsplit 参数表示最多进行分割次数，剩下的字符全部返回到列表的最后一个元素，例如设置匹配 1 次，得到的结果是 [1梦想橡皮擦1, 1good1]。

13.2.5 re.finditer 函数

搜索字符串，并返回一个匹配结果的迭代器，每个迭代元素都是 match 对象。函数原型如下：

re.finditer(pattern,string,flags=0)

测试代码如下：

import re
my_str = 1梦想橡皮擦1good1good1

pattern = rgood

# ret = re.split(pattern, my_str,maxsplit=1)
ret =re.finditer(pattern, my_str)
print(ret)

13.2.6 re.sub 函数

在一个字符串中替换被正则表达式匹配到的字符串，返回替换后的字符串，函数原型如下：

re.sub(pattern,repl,string,count=0,flags=0)

其中 repl 参数是替换匹配字符串的字符串，count 参数是匹配的最大替换次数。

import re
my_str = 1梦想橡皮擦1good1good1

pattern = rgood

ret = re.sub(pattern, "nice", my_str)
print(ret)

运行之后，得到替换之后的字符串：

1梦想橡皮擦1nice1nice1

13.2.7 re 库其它函数

其它比较常见的函数有：re.fullmatch()，re.subn()，re.escape()，更多内容可以查阅官方文档，获取一手资料。

13.3 re 库的面向对象写法

上文都是函数式写法，re 库可以采用面向对象的写法，将正则表达式进行编译之后，多次操作。核心用到的函数是 re.compile。

该函数原型如下：

regex = re.compile(pattern,flags=0)

其中 pattern 是正则表达式字符串或者原生字符串。

测试代码如下：

import re
my_str = 1梦想橡皮擦1good1good1
# 正则对象
regex = re.compile(pattern = rgood)

ret = regex.sub("nice", my_str)
print(ret)

上述代码将正则表达式编译为一个正则对象，后面在 regex.sub 函数中就不需要在写正则表达式了，使用时，只需要将编译好的 regex 对象替换所有的 re 对象，再去调用对应的方法。

13.4 re 库的 match 对象

使用 re 库匹配字符串之后，会返回 match 对象，该对象具备以下属性和方法。

13.4.1 match 对象的属性

.string：待匹配的文本；
.re：匹配时使用的 pattern 对象；
.pos：正则表达式搜索文本的开始位置；
.endpos：正则表达式搜索文本的结束位置。

测试代码如下：

import re
my_str = 1梦想橡皮擦1good1good1

regex = re.compile(pattern = rg\\w+d)

ret = regex.search(my_str)
print(ret)
print(ret.string)
print(ret.re)
print(ret.pos)
print(ret.endpos)

结果输出：

<re.Match object; span=(7, 16), match=good1good>
1梦想橡皮擦1good1good1
re.compile(g\\\\w+d)
0
17

13.4.2 match 对象的方法

.group(0)：获取匹配后的字符串；
.start()：匹配字符串在原始字符串的开始位置；
.end()：匹配字符串在原始字符串的结尾位置；
.span()：返回(.start(),.end())

因为内容比较简单，具体代码不再展示。

13.5 这篇博客的总结

本篇博客学习了 Python 中 re 库的知识点，重点在 re 库中的各个函数，对正则表达式未做过多说明，希望对你有所帮助。

以上是关于python中re库的常见用法的主要内容，如果未能解决你的问题，请参考以下文章