爬虫必备正则re模块

Posted 宇果的开发家

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫必备正则re模块相关的知识,希望对你有一定的参考价值。

re模块

*正则表达式
1、 . 匹配除换行符以外的任意字符
2、 \\w 匹配 数字 字母下划线 \\W 匹配非数字、字母、下划线

3、 \\s 匹配任意的空白符 \\S 匹配非空白符

4、 \\d 匹配数字 \\D 匹配非数字
5、 \\n 匹配一个换行符

6、 \\t 匹配一个制表符

7、 ^ 匹配字符串的开始
8、 $ 匹配字符串的结尾
9、 a|b 匹配字符a或者字符b
10、 () 匹配括号内的表达式,也表示一个组
11、 [...] 匹配字符组中的字符
12、 [ ^. . .] 匹配除了字符组中的所有字符

 

量词:控制前面的元字符出现的次数

1、 * 0次或者更多次

2、 + 重复一次或者更多次

3、 ? 重复0次或者一次

4 、 {n} 重复n次

5、 {n,} 重复n次或者更多次

6、 {n,m} 重复n次到m次

 

* 贪婪匹配和惰性匹配

1、 .* 尽可能多的匹配

2、 .*? 尽可能少的匹配字符

(这两个是写爬虫非常需要用到的)

 

以上是关于爬虫必备正则re模块的主要内容,如果未能解决你的问题,请参考以下文章

re模块,分组在re模块中的使用,使用正则表达式的技巧,爬虫实例

python爬虫入门re模块-正则表达式

爬虫——正则表达式re模块

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库

常见的爬虫分析库-Python正则表达式与re模块

re模块os模块subprocess模块