爬虫必备正则re模块
Posted 宇果的开发家
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫必备正则re模块相关的知识,希望对你有一定的参考价值。
*正则表达式
1、 . 匹配除换行符以外的任意字符
2、 \\w 匹配 数字 字母下划线 \\W 匹配非数字、字母、下划线
3、 \\s 匹配任意的空白符 \\S 匹配非空白符
4、 \\d 匹配数字 \\D 匹配非数字
5、 \\n 匹配一个换行符
6、 \\t 匹配一个制表符
7、 ^ 匹配字符串的开始
8、 $ 匹配字符串的结尾
9、 a|b 匹配字符a或者字符b
10、 () 匹配括号内的表达式,也表示一个组
11、 [...] 匹配字符组中的字符
12、 [ ^. . .] 匹配除了字符组中的所有字符
量词:控制前面的元字符出现的次数
1、 * 0次或者更多次
2、 + 重复一次或者更多次
3、 ? 重复0次或者一次
4 、 {n} 重复n次
5、 {n,} 重复n次或者更多次
6、 {n,m} 重复n次到m次
1、 .* 尽可能多的匹配
2、 .*? 尽可能少的匹配字符
(这两个是写爬虫非常需要用到的)
以上是关于爬虫必备正则re模块的主要内容,如果未能解决你的问题,请参考以下文章
re模块,分组在re模块中的使用,使用正则表达式的技巧,爬虫实例
爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库