爬虫学习笔记 -- 正则表达式
Posted web安全工具库
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习笔记 -- 正则表达式相关的知识,希望对你有一定的参考价值。
0x01 match
1、从头开始匹配,只能匹配一次
import re
str="1a2b3c456d7e890f"
res=re.match('\\d+',str)
print(res.group())
运行结果:1
2、通用匹配符.*?
import re
str="11a2b3c456d7e890f"
res=re.match('11a(.*?)d',str)
print(res)
运行结果:11a2b3c456d
3、常用匹配规则
\\d 0到9的任何数字
\\D 除0到9的数字以外的任何字符
\\w 任何字母、数字或下划线(单词)
\\W 除字母、数字和下划线以外的任何字符
\\s 空格、制表符或换行符(空白)
\\S 除空格、制表符和换行符以外的任何字符
? 匹配零次或一次前面的分组
* 匹配零次或多次前面的分组
+ 匹配一次或多次前面的分组
| 匹配多个表达式中的一个
() 使用括号创建"分组"
n 匹配n次前面的分组
n, 匹配n次或更多前面的分组
,m 匹配零次到m次前面的分组
n,m 匹配至少n次、至多m次前面的分组
n,m?或*?或+? 对前面的分组进行非贪心匹配
^spam 字符串必须以spam开始
spam$ 字符串必须以spam结束
. 匹配所有字符,换行符除外
\\d、\\w和\\s 匹配数字、单词和空格
\\D、\\W和\\S 匹配出数字、单词和空格外的所有字符
[abc] 匹配方括号内的任何字符
[^abc] 匹配不在方括号内的任何字符
0x02 search
1、任意位置开始匹配,返回第一个匹配结果
import re
str="11a2b3c456d7e890f"
res=re.search('5(.*?)d',str)
print(res.group())
运行结果:56d
0x03 findall
1、获取匹配的所有结果
import re
str="11a2b3c456d7e890f"
res=re.findall('\\d3',str)
print(res)
运行结果: ['456', '890']
0x04 sub
1、替换匹配到的内容,将字母全部替换
import re
str="11a2b3c456d7e890f"
res=re.sub('\\D','',str)
print(res)
运行结果:11234567890
0x05 compile
1、可以将正则表达式多次利用,不用重复书写
import re
str="11a2b3c456d7e890f"
str1="11a2b3c456d7e890f"
pp=re.compile('\\D')
res=re.sub(pp,'',str)
res1=re.sub(pp,'',str1)
print(res,res1)
运行结果:11234567890 11234567890
0x06 声明
仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。
欢迎关注公众号编程者吧
以上是关于爬虫学习笔记 -- 正则表达式的主要内容,如果未能解决你的问题,请参考以下文章