python 正则表达式第三方库 re的基本使用

Posted 2020-12-16 测试小文

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 正则表达式第三方库 re的基本使用相关的知识，希望对你有一定的参考价值。

re模块简介：

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配，而re模块就是python中实现正则的模块

正则表达式简介：

非打印字符：

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列：

字符	描述
cx	匹配由x指明的控制字符。
f	匹配一个换页符。等价于 x0c 和 cL。
	匹配一个换行符。等价于 x0a 和 cJ。
	匹配一个回车符。等价于 x0d 和 cM
s	匹配任何空白字符，包括空格、制表符、换页符等等。
S	匹配任何非空白字符。等价于 [^ f v]。
	匹配一个制表符。等价于 x09 和 cI。
v	匹配一个垂直制表符。等价于 x0b 和 cK。

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

正则表达式的限定符有：

字符	描述
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
?	匹配前面的子表达式零次或一次
{n}	n 是一个非负整数
{n,}	n 是一个非负整数
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次

所谓特殊字符，就是一些有特殊含义的字符：

特别字符	描述
$	匹配输入字符串的结尾位置
( )	标记一个子表达式的开始和结束位置
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
.	匹配除换行符之外的任何单字符
[	标记一个中括号表达式的开始
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符
	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合
{	标记限定符表达式的开始。要匹配 {，请使用 {
\|	指明两项之间的一个选择。要匹配 \|，请使用 \|

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

字符	描述
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
?	匹配前面的子表达式零次或一次
{n}	n 是一个非负整数
{n,}	n 是一个非负整数
{n,m}	m 和 n 均为非负整数，其中n <= m

定位符

定位符使您能够将正则表达式固定到行首或行尾

字符	描述
^	匹配输入字符串开始的位置
$	匹配输入字符串结尾的位置
	匹配一个单词边界，即字与空格间的位置。
B	非单词边界匹配。

re模块的基本使用：

直接import re 即可

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

re.match(pattern, string, flags=0)

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

#示例代码
print(re.match(‘w+‘, ‘newdream.com‘).group()) #起始位置匹配字符，w匹配字母数字及下划线  + 匹配前面的子表达式一次或多次

运行结果：
newdream

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配

re.search(pattern, string, flags=0)

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式

#示例代码
print(re.search(‘new(.+?)am‘, ‘newdream new  newd5555ream ‘).group())
#new(.+?)am：匹配new开头，am结尾。newdream   newd5555ream 满足条件，只返回第一个

#运行结果
newdream

re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

参数：

string : 待匹配的字符串。
pos : 可选参数，指定字符串的起始位置，默认为 0。
endpos : 可选参数，指定字符串的结束位置，默认为字符串的

#示例代码
print(re.findall(‘new(.+?)am‘, ‘newdream nssewdsds  newd5555ream‘)) 

#运行结果

[‘dre‘, ‘d5555re‘]

re.split

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式

#示例代码
print(re.split(‘d+‘, ‘newdream55nssewdsds66newd5555ream ‘))
#‘d+：匹配有一个或者多个数字

#运行结果
[‘newdream‘, ‘nssewdsds‘, ‘newd‘, ‘ream ‘]

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
1. re.I 忽略大小写
2. re.L 表示特殊字符集 w, W, , B, s, S 依赖于当前环境
3. re.M 多行模式
4. re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
5. re.U 表示特殊字符集 w, W, , B, d, D, s, S 依赖于 Unicode 字符属性数据库
6. re.X 为了增加可读性，忽略空格和 # 后面的注释

刚刚学会的split方法可以这样写：

#示例代码
pattern = re.compile(r‘d+‘)
print(pattern.split( ‘newdream55nssewdsds66newd5555ream ‘))

#运行结果
[‘newdream‘, ‘nssewdsds‘, ‘newd‘, ‘ream ‘]

同理可得，match，search，findall都可以这样写，方便以后拓展。今天的基础介绍结束，以后有更高级的用法在分享吧！

以上是关于python 正则表达式第三方库 re的基本使用的主要内容，如果未能解决你的问题，请参考以下文章

Python 爬虫正则表达式和re库，及re库的基本使用，提取单个页面信息

第三方库-正则re

re库正则表达式基本使用

06 Python爬虫之Re(正则表达式)库

Python技能树共建正则表达式

正则表达式和re库