python爬虫正则表达式
Posted 工程小白
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫正则表达式相关的知识,希望对你有一定的参考价值。
1、正则表达式概念:用来简洁表达字符串的方式。(regular expression regex RE)
通用的字符串框架
针对字符串表达“简洁”和“特征”思想的工具。
2、正则表达式的语法:
2.1、“.” :表示任何单个字符
2.2、“[]” :字符集,对单个字符给出取值范围
[abc]表示a、b、c,[a-z]表示a到z单个字符
2.3、“[^]” :非字符集
[^abc]表示不是a,b,c,的单个字符
2.4、“*” :前一个字符的0次或无限次扩展
2.5、“+” :前一个字符1次或无限次扩展
2.6、“?” :前一个字符的0次或1次扩展
2.7、“|” :或,左右表达式任意一个
abc|def 表示abc或def
2.8、“{m}” :扩展前一个字符m次
2.9、“{m,n}” :扩展前一个字符m至n次(含n)
2.10、“^” :匹配字符串开头
^abc 表示abc开头字符串
2.11、“$” :匹配字符串结尾
abc$ 表示abc结尾字符串
2.12、“()” :分组标记,内部智能使用“|”操作符
2.13、“d” :数字,等价于[0-9]
2.14、“w” :单词字符,等价于[A-Za-z0-9_]
eg:^[A-Za-z]+$ :表示由26个字母组成的字符串
:^[A-Za-z0-9]+$:表示由26个字母和数字组成的字符串
:^-?d+$:整数形式的字符串 #“-”扩展0次或一次,表示正负
:^[0-9]*[1-9][0-9]*$:表示正整数形式的字符串
:[1-9]d{5}:中国境内邮政编码,6位
:[u4e00-u9fa5]:匹配中文字符
3、re库的使用
以上是关于python爬虫正则表达式的主要内容,如果未能解决你的问题,请参考以下文章