python 中 正则表达式(Regular Expressions)学习

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 中 正则表达式(Regular Expressions)学习相关的知识,希望对你有一定的参考价值。

刚接触了python中的re模块,由于之前没有对正则表达式进行系统性的学习,学起来很费劲,因此写下这篇博客进行积累和巩固,以备后用。

正则表达式的应用是非常广泛的,不论是在linux中还是在编程中,我们总会遇到正则表达式,借着学习python的机会,也稍微系统的学习一下正则表达式。

自己看了下正则表达式的帮助文档,也在Internet上看了一些相关的资料,网上的资料对这个介绍的还是很多的。

以下为自己的学习经历:

‘*‘  这个符号在通配符中是最经常使用的,我们常常用它来匹配任意的字符,在RE中也是如此,‘*‘表示的是:匹配0个或者多个字符

print(re.match(r‘ab*‘, ‘abb‘).group())

以上例子中,*表示匹配多个b结尾的字符。

‘.‘  这个符号是dot,点字符,表示的是:匹配任意的字符。

当:

print(re.match(r‘.*‘, ‘abc\ndef‘).group())

表示匹配一行,添加函数 re.DOTALL时,匹配的是整个字符串,多行。

print(re.match(r‘.*‘, ‘abc\ndef‘, re.DOTALL).group())

‘+‘  表示的是:匹配一个或者多个字符,说明

print(re.match(r‘ab+‘, ‘abbbb‘))

匹配的是一个或者多个b字符。

‘?‘  表示:匹配的是0个或者一个字符,说明

print(re.match(r‘ab?‘, ‘abbb‘))

同样会匹配上,因为abbb中包含ab,a

‘^‘  这个符号是caret,脱字符,表示的是:匹配一行的首字符。

说明:当

print(re.findall(r‘^abc‘, ‘abc\nabc‘,))

匹配的是\n前面的字符串,只返回一个abc,但是如下情况的话:

print(re.findall(r‘^abc‘, ‘abc\nabc‘, re.MULTILINE))

匹配两个abc字符串,re.MULTILINE函数,顾名思义,我们在匹配时将对多行进行匹配,所以匹配了两个abc字符。

‘$‘  这个符号是表示:匹配一行的尾字符。

说明:

print(re.findall(r‘abc\d$‘, ‘abc1\nabc3‘, re.MULTILINE))

当出现re.MULTILINE时,表示匹配多行。

‘\‘  转义字符,这个在其他语言和环境中是经常应用的,如果添加转义的话,才不会产生歧义。

‘[]‘ 匹配集合符号,表示匹配[]中的字符,说明:

print(re.search(r‘0[xX]([0-9a-fA-F]{6})‘, ‘the hex value is 0x2378ad‘))

这个语句表示匹配十六进制的数。

‘{m}‘  表示的是:匹配{}中的m个字符,说明:

print(re.match(r‘ab{3,5}‘, ‘abbbbb‘).group())

表示的是:匹配3-5个b在字符串中,但是python默认会匹配5个,匹配大的个数。(贪婪模式)


说明 re.match() 和 re.search()的区别

#!/usr/bin/python
# -*- coding: UTF-8 -*- 
import re
print(re.match(‘www‘, ‘www.runoob.com‘).span())  # 在起始位置匹配
print(re.match(‘com‘, ‘www.runoob.com‘))      # 不在起始位置匹配

返回结果:

(0, 3)
None
#!/usr/bin/python
# -*- coding: UTF-8 -*- 
import re
print(re.search(‘www‘, ‘www.runoob.com‘).span())  # 在起始位置匹配
print(re.search(‘com‘, ‘www.runoob.com‘).span())  # 不在起始位置匹配

返回结果:

(0, 3)
(11, 14)

比较之下可以看出,两者的区别在于,是否在开始进行匹配,match为从起始位置进行匹配,而search则是不从开始匹配,(其实理解两者英文意思也可明白,一个是匹配,一个是搜索)

关于特殊的转义的说明:


\A

匹配字符串的开始

 

\b

匹配空字符串(匹配位置比较容易理解),但只在单词的开头或结尾。(也作为分割字符串)一个单词是由字母数字或下划线字符组成,因此一个单词的边界是空白或者非字母 数字、不包括下划线。请注意,\b是指\w和\W之间的边界,因此确切的字符集定义取决于UNICODE和LOCALE编译标志的值。在字符范围内,\b 表示退格符,与python的字符串兼容。

 

\B

匹配空字符串(匹配位置比较容易理解),但当它不在单词的开始或结尾。这是和\b相反的,也受到LOCALE和UNICODE的设置影响。

 

\d

当UNICODE标志没有指定,匹配任何10进制数字,相当于[0-9]。带UNICODE标志时,它会匹配任何在unicode字符集中属于数字分类的字符。

 

\D

当UNICODE标志没有指定,匹配任何非数字字符,相当于[^0-9]。带UNICODE标志时,它会匹配任何不在unicode字符集中属于数字分类的字符。

 

\s

当LOCALE和UNICODE标志没有指定时,匹配任何空白字符,这相当于[ \t\n\r\f\v]。带LOCALE标志时,它将匹配当前环境定义的空白符。如果带UNICODE标志,那么将匹配任何被划分为空白符的符号。

 

\S

当LOCALE和UNICODE标志没有指定时,匹配任何非空白字符,这相当于[^\t\n\r\f\v]。带LOCALE标志时,它将匹配当前环境定义的非空白符。如果带UNICODE标志,那么将匹配任何不被划分为空白符的符号。

 

\w

当LOCALE和UNICODE标志没有指定时,匹配任何字母数字字符、下划线,这相当于[a-zA-Z0-9_]。带LOCALE标志时,它 将匹配当前环境定义的字母和[0-9_]。带UINCODE标志时,将匹配在unicode字符集里划分为字母的字符和[0-9_]。

 

\W

当LOCALE和UNICODE标志没有指定时,匹配任何非字母数字字符、下划线,这相当于[^a-zA-Z0-9_]。带LOCALE标志 时,它将匹配除了当前环境定义的字母、[0-9_]。带UINCODE标志时,将匹配除了在unicode字符集里划分为字母的字符、[0-9_]。

 

\Z

匹配字符串的结束

以上规则比较好记忆,因为都是两两相对应的。

本文出自 “9651854” 博客,请务必保留此出处http://9661854.blog.51cto.com/9651854/1784290

以上是关于python 中 正则表达式(Regular Expressions)学习的主要内容,如果未能解决你的问题,请参考以下文章

NotePad++ 正则表达式 转

day4 正则表达式(regular)

Regular Expression(正则表达式)之邮箱验证

还没搞懂正则?熬夜到虚脱整理出来的Python的正则表达式总结(Regular Expression)

还没搞懂正则?熬夜到虚脱整理出来的Python的正则表达式总结(Regular Expression)

正则表达式(Regular Expressions)