正则,re模块
Posted 小杜要加油
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则,re模块相关的知识,希望对你有一定的参考价值。
一、正则表达式(精准匹配)
匹配字符串内容的一种规则
二、字符组
三、主要元字符
\\d+\\.?\\/\\d*
式子前面必须有,后面可无
元字符 | 匹配内容 | 元字符 | 匹配内容 |
. | 匹配除换行符以外的任意字符 | $ | 匹配字符串的结尾 |
\\w | 匹配字母或数字或下划线(word) | \\W | 匹配非字母或数字或下划线 |
\\s | 匹配任意的空白符(space) | \\S | 匹配非空白符 |
\\d | 匹配数字(digit) | \\D | 匹配非数字 |
\\n | 匹配一个换行符(next) | a|b | 匹配字符a或字符b |
\\t | 匹配一个制表符(table) | () | 匹配括号内的表达式,也表示一个组 |
\\b | 匹配一个单词的结尾 | [...] | 匹配字符串中的字符 |
^ | 匹配字符串的开始 | [^...] | 匹配除了字符串中字符的所有字符 |
# . ^ $ 例子 import re obj1 = re.findall(\'海.\',\'海燕海南海西\') print(obj1) # [\'海燕\', \'海南\', \'海西\'] 匹配所有带‘海’的字符 obj1 = re.findall(\'^海.\',\'海燕海南海西\') print(obj1) # [\'海燕\'] 只从开头匹配带海的字符 obj1 = re.findall(\'海.$\',\'海燕海南海西\') print(obj1) # [\'海西\'] 只匹配结尾带海的字符
量词:
由于贪婪匹配的原因,在满足匹配条件的情况下,默认按贪婪匹配,即尽可能多的匹配字符串,若在量词后面加上?,即可
将贪婪匹配更改为非贪婪匹配,即匹配尽量短的字符串,常见量词及其主要用法如下:
贪婪模式:
量词 | 用法说明 | 量词 | 用法说明 |
* | 重复零次或更多次 | {n} | 重复n次 |
+ | 重复一次或更多次 | {n,} | 重复n |
? | 重复零次或一次 | {n,m} | 重复n到m次 |
import re
func1 = re.findall(\'李.?\',\'李杰和李立秋和李梵高先生\') print(func1) # [\'李杰\', \'李立\', \'李梵\'] ?表示匹配0或者1次,即匹配李后面任意字符1次
func2 = re.findall(\'李.*\',\'李杰和李立秋和李梵高先生\') print(func2) # [\'李杰和李立秋和李梵高先生\'] *表示匹配0次或多次
func3 = re.findall(\'李.+\',\'李杰和李立秋和李梵高先生\') print(func3) # [\'李杰和李立秋和李梵高先生\'] + 表示匹配1次或多次
func4 = re.findall(\'李.{1,2}\',\'李杰和李立秋和李梵高先生\') print(func4) # [\'李杰和\', \'李立秋\', \'李梵高\'] {1,2} 表示匹配1到2次,即匹配李后面任意字符2次
非贪婪模式:
非贪婪模数 | 用法说明 |
*? | 重复0次或更多次,但尽可能少重复 |
+? |
重复1次或更多次,但尽可能少重复 |
?? |
重复0次或1次,但尽可能少重复 |
{n,}? |
重复n次以上,但尽可能少重复 |
{n,m}? |
重复n到m次,但尽可能少重复 |
.*> 遇到>即停止匹配
func4 = re.findall(\'李.{1,2}?\',\'李杰和李立秋和李梵高先生\') print(func4) # [\'李杰\', \'李立\', \'李梵\'] ,重复1次
func5 = re.findall(\'李.??\',\'李杰和李立秋和李梵高先生\') print(func5) # [\'李\', \'李\', \'李\'] ,重复0次
func6= re.findall(\'李.+?\',\'李杰和李立秋和李梵高先生\') print(func6) # [\'李杰\', \'李立\', \'李梵\'] ,重复1次
func7= re.findall(\'李.*?\',\'李杰和李立秋和李梵高先生\') print(func7) # [\'李\', \'李\', \'李\'] ,重复0次
字符集 [ ] [^]
func8 = re.findall(\'李.[杰立秋梵高先生]*\',\'李杰和李立秋和李梵高先生\') print(func8) # [\'李杰\', \'李立秋\', \'李梵高先生\'] 表示匹配"李"字后面[杰立秋梵高先生]的字符任意次
func9 = re.findall(\'李.[^和]*\',\'李杰和李立秋和李梵高先生\') print(func9) # [\'李杰\', \'李立秋\', \'李梵高先生\'] 表示匹配李后面不是和的任意字符
func10 = re.findall(\'[\\d]\',\'1220shi6\') print(func10) # func10 = re.findall(\'[\\d]*\',\'1220shi6\') print(func10) # [\'1\', \'2\', \'2\', \'0\', \'6\'] 表示匹配任意一个数字
func11 = re.findall(\'[\\d]*\',\'1220shi6\') print(func11) # [\'1220\', \'\', \'\', \'\', \'6\', \'\']
func12 = re.findall(\'[\\d]+\',\'1220shi6\') print(func12) # [\'1220\', \'6\'] 表示匹配任意个数字
分组()与或|
身份证号码是由15位或者18位的字符组成,如果是15位,首位不能是0,其他位数均为数字,如果是18位,则最后一位可能 是数字或者X,用正则表达式匹配的两种方式如下:
正则表达式 | 结果说明 |
^[1-9]\\d{14}(\\d{2}[0-9x])?$ |
()表示分组,将\\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次
|
^([1-9]\\d{16}[0-9x]|[1-9]\\d{14})$ |
表示先匹配[1-9]\\d{16}[0-9x]如果没有匹配上就匹配[1-9]\\d{14}
|
import re phone_number = input(\'please input your phone number : \') if re.match(\'^(13|14|15|18)[0-9]{9}$\',phone_number): print(\'是合法的手机号码\') else: print(\'不是合法的手机号码\')
转义符\\
在正则表达式中,有很多有特殊意义的是元字符,比如\\d和\\s等,如果要在正则中匹配正常的"\\d"而不是"数字"就需要对"\\"进行转义,变成\'\\\\\'。
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\\也有特殊的含义,本身还需要转义。所以如果匹配一次"\\d",字符串中要写成\'\\\\d\',那么正则里就要写成"\\\\\\\\d",这样就太麻烦了。这个时候我们就用到了r\'\\d\'这个概念,此时的正则是r\'\\\\d\'就可以了。
r\'\\\\n\' -->r\'\\n\'
四、re模块主要方法
findall | 找所有,返回列表 |
search | 找第一个,返回值.group() |
match | 从开始匹配 |
split | 根据正则表达式去切割 |
sub/subn | 根据正则表达式去替换 |
compile | 编译正则 |
finditer | 找所有,返回迭代器, |
1、findall():返回所有符合匹配条件的
import re ret = re.findall(\'a\', \'eva egon yuan\') # 返回所有满足匹配条件的结果,放在列表里 print(ret) #结果 : [\'a\', \'a\']
2、search():在字符串内进行匹配,直到找到第一个后,返回一个包含匹配信息的匹配对象,可以通过group()对匹配对象取出匹配的字符串,如果没有匹配的字符串,则返回None,通过group()取值会报错
import re ret = re.search(\'a\', \'eva egon yuan\').group() print(ret) #结果 : \'a\'
#search 从左到右依次找,找到一个就回来,需要使用group()获取返回值
如果re.search找不到,就返回None。使用group会报错
3、match():match == ^ 在字符串开头进行匹配,返回一个包含匹配信息的匹配对象,可以通过group()方法调用匹配对象,取出匹配的字符串,如果没有匹配的字符串,则返回None,通过group()取值会报错。
import re ret = re.match(\'h\', \'abc\') print(ret) #返回None res = re.match(\'a\', \'abc\') print(res.group()) #返回‘a\'
#match从头开始匹配,匹配上了需要使用group来获取返回值
#匹配不上返回None,使用group会报错
4、split():按照正则表达式的要求对字符串分割,返回分割后的列表
import re ret=re.split(\'[ab]\',\'abcd\') #先按\'a\'分割得到\'\'和\'bcd\',在对\'\'和\'bcd\'分别按\'b\'分割 print(ret) #结果:[\'\',\'bcd\']--->[\'\', \'\', \'cd\']
ret = re.split(\'[ac]\',\'abcd\')
print(ret) # [\'\', \'b\', \'d\']
5、sub():替换字符串中的内容,与字符串方法replace()相似
replace(old,new,count)
sub(re,new,str,count)
import re ret=re.sub(\'\\d\',\'H\',\'av23nb4g4\',2) #将字符串中的数字替换为\'H’,其中2代表只替换前两个,默认全部替换 print(ret) #输出结果:avHHnb4g4
6、subn()替换字符串中的内容,返回一个元组,包含替换结果的字符串及替换次数
import re ret=re.subn(\'\\d\',\'H\',\'av23nb4g4\') print(ret) #输出结果:(\'avHHnbHgH\', 4)
7、compile
obj = re.compile(\'\\d{3}\') #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字 ret = obj.search(\'abc123eeee\') #正则表达式对象调用search,参数为待匹配的字符串 print(ret.group()) #结果 : 123
8、finditer(): 节省内存
import re ret = re.finditer(\'\\d\', \'ds3sy4784a\') #finditer返回一个存放匹配结果的迭代器 print(ret) # <callable_iterator object at 0x10195f940> print(next(ret).group()) #查看第一个结果 print(next(ret).group()) #查看第二个结果 print([i.group() for i in ret]) #查看剩余的左右结果
计算器
\\d+\\.?\\/\\d*
式子前面必须有,后面可无
import re #处理符号用的 def dealwith_symbol(express): if \'--\' in express:express = express.replace(\'--\',\'+\') if \'+-\' in express:express = express.replace(\'+-\',\'-\') if \'-+\' in express:express = express.replace(\'-+\',\'-\') if \'++\' in express:express = express.replace(\'++\',\'+\') return express #处理乘除法 def mul_div(express): #a*b a/b if \'*\' in express: a,b = express.split(\'*\') ret = float(a)*float(b) elif \'/\' in express: a, b = express.split(\'/\') ret = float(a) / float(b) return str(ret) # 将没有括号的子表达式中的乘除法先提取出来,再计算加减法 def simplify_express(express_son): #(9-2*5/3) while True: #取乘除法计算 ret = re.search(r\'\\d+\\.?\\d*[*/]-?\\d+\\.?\\d*\',express_son) #(9-2*5/3) if ret: mul_div_express = ret.group() #2*5 result = mul_div(mul_div_express) #10 express_son = express_son.replace(mul_div_express,result,1) #(9-3.3) express_son = dealwith_symbol(express_son) else:break express_son = dealwith_symbol(express_son) num_lst = re.findall(r\'[\\+\\-]?\\d+\\.?\\d*\',express_son) #(-8) sum = 0 for i in num_lst: sum += float(i) return str(sum) # 1 将表达式中的括号提取出来 def remove_bracket(express): #\\([^\\(\\)]+\\)、\\([^\\(]+?\\)、\\([\\-\\d\\+\\/\\*\\.]+\\) while True: ret = re.search(r\'\\([^\\(\\)]+\\)\',express) # \\([^\\(\\)]+\\)正则表达式 if ret: express_no_bracket = ret.group() # express_no_bracket: 没有括号的表达式 sum = simplify_express(express_no_bracket) express = express.replace(express_no_bracket,sum,1) else:break return simplify_express(express) e = \'1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )\' new_express = e.replace(\' \',\'\') # 去空格 # 1-2*((60-30+(-40/5)*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2)) print(new_express) result = remove_bracket(new_express) print(result)
以上是关于正则,re模块的主要内容,如果未能解决你的问题,请参考以下文章