Python_Mix*re模块,元字符,量词
Posted mixw
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python_Mix*re模块,元字符,量词相关的知识,希望对你有一定的参考价值。
模块:
- 模块就是一组功能的集合,你要和某个东西打交道,而这个东西本身和Python没有关系,这个东西本身就存在,Python提供了一个功能的集合,专门负责和这个东西打交道.
- 模块的类型:
- 内置模块 不需要我们自己安装的 解释器自带的
- 第三方模块 需要我们自己安装的模块
- 自定义模块 我们自己写的模块
- re模块:
- 在Python中使用正则表达式
- 正则表达式:
- 是一种独立的规则,独立的语言,只和字符串打交道
- 功能:
- 从大段的文字中找到符合规则的内容
- 比如说爬虫,从网页的字符串中获取你想要的数据
- 日志分析.提取日志中你想要获取的数据
- 判断某个字符串是否完全符合规则
- 表单验证:手机号,qq号.邮箱,银行卡,身份证号.密码
- 从大段的文字中找到符合规则的内容
- 规则:
- 规则 字符串 从字符串中找到符合规则的内容
- 字符组[ ]写在括号中的内容,都出现在下面的某一个字符的位置上且都是符合规则的
- [0-9]匹配数字
- [a-z]匹配小写字母
- [A-Z]匹配大写字母
- [a-zA-Z]匹配大小写字母
- [a-zA-Z0-9]匹配大小写字母+数字
- [a-zA-Z0-9_]匹配数字字母下滑线
- 元字符
- 贪婪匹配/惰性匹配:默认贪婪/量词?惰性匹配
- 和转义字母相关的元字符
- w匹配数字字母下滑线 关键字(word) 如[a-zA-Z0-9_]
- d匹配所有数字 关键字(digit) 如[0-9]
- s匹配所有的空白符 回车(换行符), 制表符(Tab),空格
- W,D,S是上面三个元字符的反义
- [sS][dD][wW]是三组全集 意思是匹配所有字符
- 表示单词的边界
- ^和$
- ^是匹配一个字符串的开始
- $是匹配一个字符串的结束
- . 表示匹配除了换行符之外的所有字符
- [ ]只要出现在中括号内的内容都可以被匹配
- [^]只要不出现在中括号中的内容都可以被匹配(有一些有特殊意义的元字符进入字符组中会恢复它本来的意义: . | [ ] ( ) )
- a|b 或 符合a规则的或者b规则的都可以被匹配
- 如果a规则是b规则的一部分,且a规则比b规则要苛刻/长,就把a规则写在前面(将更复杂的更长的规则写在最前面)
- ( ) 分组 表示给几个字符加上量词约束的需求的时候,就给这些量词分在一个组
- 量词:
- {n}表示这个量词之前的字符出现n次
- {n,}表示这个量词之前的字符至少出现n次
- {n,m}表示这个量词之前的字符出现n-m次
- ? 表示匹配量词之前的字符出现0次或者1次 表示可有可无
- + 表示匹配量词之前的字符出现1次或者多次
- * 表示匹配量词之前的字符出现0次或者多次
- 正则表达式:
- 在Python中使用正则表达式
以上是关于Python_Mix*re模块,元字符,量词的主要内容,如果未能解决你的问题,请参考以下文章