爬虫学习笔记 -- 正则表达式

Posted 2022-09-14 web安全工具库

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫学习笔记 -- 正则表达式相关的知识，希望对你有一定的参考价值。

0x01 match

1、从头开始匹配，只能匹配一次

import re
str="1a2b3c456d7e890f"
res=re.match('\\d+',str)
print(res.group())
运行结果：1

2、通用匹配符.*？

import re
str="11a2b3c456d7e890f"
res=re.match('11a(.*?)d',str)
print(res)
运行结果：11a2b3c456d

3、常用匹配规则

\\d               0到9的任何数字


\\D               除0到9的数字以外的任何字符


\\w               任何字母、数字或下划线(单词)


\\W               除字母、数字和下划线以外的任何字符


\\s               空格、制表符或换行符(空白)


\\S               除空格、制表符和换行符以外的任何字符


?                            匹配零次或一次前面的分组


*                            匹配零次或多次前面的分组


+                            匹配一次或多次前面的分组


|                            匹配多个表达式中的一个


()                           使用括号创建"分组"


n                          匹配n次前面的分组


n,                         匹配n次或更多前面的分组


,m                         匹配零次到m次前面的分组


n,m                        匹配至少n次、至多m次前面的分组


n,m?或*?或+?               对前面的分组进行非贪心匹配


^spam                        字符串必须以spam开始


spam$                        字符串必须以spam结束


.                            匹配所有字符，换行符除外


\\d、\\w和\\s                   匹配数字、单词和空格


\\D、\\W和\\S                   匹配出数字、单词和空格外的所有字符


[abc]                        匹配方括号内的任何字符


[^abc]                       匹配不在方括号内的任何字符

0x02 search

1、任意位置开始匹配，返回第一个匹配结果

import re
str="11a2b3c456d7e890f"
res=re.search('5(.*?)d',str)
print(res.group())
运行结果：56d

0x03 findall

1、获取匹配的所有结果

import re
str="11a2b3c456d7e890f"
res=re.findall('\\d3',str)
print(res)
运行结果: ['456', '890']

0x04 sub

1、替换匹配到的内容，将字母全部替换

import re
str="11a2b3c456d7e890f"
res=re.sub('\\D','',str)
print(res)
运行结果：11234567890

0x05 compile

1、可以将正则表达式多次利用，不用重复书写

import re
str="11a2b3c456d7e890f"
str1="11a2b3c456d7e890f"
pp=re.compile('\\D')
res=re.sub(pp,'',str)
res1=re.sub(pp,'',str1)
print(res,res1)
运行结果：11234567890 11234567890

0x06 声明

仅供安全研究与学习之用，若将工具做其他用途，由使用者承担全部法律及连带责任，作者不承担任何法律及连带责任。

欢迎关注公众号编程者吧

以上是关于爬虫学习笔记 -- 正则表达式的主要内容，如果未能解决你的问题，请参考以下文章

正则表达式特殊字符串学习笔记

Scrapy爬虫学习笔记 - 爬虫基础知识

PYTHON笔记简单的网页爬虫：用正则表达式抓取关键信息

python：网络爬虫的学习笔记

[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块

python3网络爬虫学习——正则表达式