python之基础篇——正则表达式RE模块

Posted 2020-08-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python之基础篇——正则表达式RE模块相关的知识，希望对你有一定的参考价值。

防伪码：忘情公子著

正则表达式（RE）是一种小型的、高度专业化的编程语言，在python中，它通过re模块实现。

正则表达式可以实现以下功能：

为想要匹配的相应字符串集指定规则；

能够匹配不定长的字符集；

可以指定正则表达式的一部分的重复次数；

可以使用RE以各种方式来修改或分割字符串

正则表达式模式被编译成一系列的字节码，然后由C编写的匹配引擎执行。

字符匹配：

普通字符：

大多数字母和字符一般都会和自身匹配。

如正则表达式test会和字符串"test"完全匹配

元字符：

[]：

常用来指定一个字符集：[abc]或[a-z]

元字符在字符集中不起作用：[akm$]

补集匹配不在区间范围内的字符：[^a-z]

^：

匹配行首。除非设置MULTILINE标志，它只是匹配字符串的开始

在MULTILINE模式里，它也可以直接匹配字符串中的每个换行

$：

匹配行尾，行尾被定义为要么是字符串尾，要么是一个换行字符后面的任何位置

\：

反斜杠后面可以加不同的字符以表示不同特殊意义

也可以用于取消所有的元字符：\[或\\

\d：匹配任何十进制数：它相当于[0-9]

\D：匹配任何非数字字符：它相当于[^0-9]

\s：匹配任何空白字符：它相当于[\t\n\r\f\v]

\S：匹配任何非空白字符：它相当于[^\t\n\r\f\v]

\w：匹配任何字母数字字符：它相当于[a-zA-Z0-9_]

\W：匹配任何非字母数字字符：它相当于[^a-zA-Z0-9_]

*：

指定前一个字符可以被匹配零次或更多次，而不是只有一次。

匹配引擎会试着重复尽可能多的次数（不超过整数界定范围，20亿）

+：

表示匹配至少一次或多次

?：

匹配一次或零次：你可以认为它用于标识某事物是可选的

加在重复（+和*）的后面，可以启用懒惰模式，实现最小匹配

{m,n}：

其中m和n是十进制整数。该限定符的意思是至少有m个重复、至多到n个重复

忽略m会认为下边界是0，而忽略n的结果将是上边界为无穷大（实际上是20亿）

{0,}等同于*，{1}等同于+，而{0,1}则与?相同。若可以的话，最好使用*、+或?

()：分组

分组可以把一些数据划分为一个整体

当用findall作匹配时如果有分组则只返回分组中的数据

email = r‘\[email protected]\w+\.(com|cn|com\.cn)‘

使用正则表达式：

re模块提供了一个正则表达式引擎的接口re.compile()函数，可将REstring编译成对象并用它们来进行匹配。

编译后的正则要比没编译而直接解释的正则处理速度要快很多。

编译正则表达式：

In [1]: import re

In [2]: phone_number = re.compile(‘^\d{3,4}-?\d{8}$‘)

In [3]: print phone_number
<_sre.SRE_Pattern object at 0x7f672ed46300>

In [4]: phone_number.findall(‘010-12345678‘)
Out[4]: [‘010-12345678‘]

In [5]: phone_number.findall(‘010-123456789‘)
Out[5]: []

In [6]: phone_number.findall(‘0120-12345678‘)
Out[6]: [‘0120-12345678‘]

re.compile()也接受可选的标志参数，常用来实现不同的特殊功能和语法变更。

p = re.compile(r‘ab*‘,re.IGNORECASE)

编译标志-flags：后面的单个字母可以代替前面的单词，如re.S可以代替re.DOTALL

DOTALL,S：使"."点号匹配包括换行在内的所有字符。

IGNORECASE,I：使匹配对大小写不敏感

LOCALE,L：使本地化识别（）匹配.法语等

MULTILINE,M：多行匹配，影响^和$。适用于要匹配的文本分布在多行的情况下。

VERBOSE,X：能够使用REs的verbose状态，使之被组织得更清晰易懂。适用于正则表达式分布在多行的情况下。

反斜杠（\）的麻烦：

字符串前加‘r‘反斜杠就不会被任何特殊方式处理

\section：要匹配的字符串

\\section：为re.compile取消反斜杠的特殊意义

"\\\\section"：为"\\section"的字符串实值（string literals）取消反斜杠的特殊意义

执行匹配常用的函数：

‘RegexObject‘实例有一些方法和属性，完整的列表可查阅Python Library Reference

match()：决定RE是否在字符串刚开始的位置匹配

search()：扫描字符串，找到这个RE匹配的位置，无论在字符串的什么位置均能找到

findall()：找到RE匹配的所有子串，并把它们作为一个列表返回

finditer()：找到RE匹配的所有子串，并把它们作为一个迭代器返回

注意：若未匹配到则match()和search()将返回None。若匹配成功则返回一个‘MatchObject‘实例对象

MatchObject实例方法：

group()：返回被RE匹配的字符串

start()：返回匹配开始的位置

end()：返回匹配结束的位置

span()：返回一个元组包含匹配（开始，结束）的位置

实际程序中，最常见的方法是将‘MatchObject‘保存在一个变量里，然后检查它是否为None。

#!/usr/bin/python
p = re.compile(...)
m = p.match(‘string goes here‘)
if m:
    print ‘Match found: ‘,m.group()
else:
    print ‘No match‘

模块级函数：

re模块也提供了顶级函数调用，如match()、search()、sub()、subn()、split()、findall()等

re.sub(pattern, repl, string)：

给定一个正则表达式pattern，将其作用于string字符串，并将匹配的内容修改成repl

如：re.sub(r‘w...d‘,‘python‘,‘hello world‘)，此句会实现将hello world修改成hello python

re.split(pattern, string)：

给定一个正则表达式pattern，将其作用于string实现分割

如：re.split(r‘[\+\-\*]‘,‘123+456-789*000‘)，以+-*为分割符分割后面的字符串

本文出自 “忘情居” 博客，请务必保留此出处http://itchentao.blog.51cto.com/5168625/1891046

以上是关于python之基础篇——正则表达式RE模块的主要内容，如果未能解决你的问题，请参考以下文章

Python基础之re模块（正则表达式）

python基础之正则表达式和re模块

#yyds干货盘点# Python 内置模块之 re 库，一文搞定正则表达式初阶用法，滚雪球学 Python 第 13 篇

python基础之正则表达式和re模块

python 正则表达式 re模块基础

Python 基础 - Day 5 Learning Note - 模块之标准库：RE (14) 正则表达式