最全的python正则使用

Posted 2023-04-12 奈非天

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了最全的python正则使用相关的知识，希望对你有一定的参考价值。

正则表达式

一、概述

1. 概念

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

2. 目的

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

a. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）；

例如：邮箱匹配，电话号码匹配
b. 可以通过正则表达式，从字符串中获取我们想要的特定部分。

爬虫中解析 HTML 数据

3. 特点：

a. 灵活性、逻辑性和功能性非常的强；
b. 可以迅速地用极简单的方式达到字符串的复杂控制。
c. 对于刚接触的人来说，比较晦涩难懂。

4. 学习方法

a. 做好笔记，不要死记硬背
b. 大量练习

python 中通过系统库 re 实现正则表达式的所有功能

二、正则表达式符号

1. 普通字符

下面的案例使用 re 模块的 findall() 函数，函数参考如下：

```
re.findall(pattern, string, flag)
```
Python
- 在字符串中找到正则表达式所匹配的所有子串，并返回列表，如果没有找到返回空列表
- pattern: 正则表达式
- string：被匹配的字符串
- flag：标志位用来控制正则表达式匹配方式

在最简单的情况下，一个正则表达式看上去就是一个普通的查找串

import re
s1 = "testing123"
s2 = "Testing123"
r = re.findall("test", s1)  # 表示在s1中找到字符串"test"
print(r)

运行结果：

[\'test\']

r = re.findall("test", s2)
print(r)

运行结果：

[]

r = re.findall("test", s2, re.I) # 修饰符re.I:使匹配对大小写不敏感
print(r)

运行结果：

[\'Test\']

2. 元字符

. ^ $ * + ?   [ ] | ( ) \\

符号	功能
.	通配符 `.` 匹配除 `\\n` 之外的任何单个字符
^	脱字符 `^` 匹配输入字符串的开始位置
$	美元符 `$` 匹配输入字符串的结束位置
*	重复元字符 `*` 匹配前面的子表达式任意次
+	重复元字符 `+` 匹配前面的子表达式一次或多次（至少一次）
?	重复元字符 `?` 匹配前面的子表达式 0 次或 1 次
	重复元字符也是控制匹配前面的子表达式次数
[ ]	字符组 `[]`表示匹配给出的任意字符
\|	选择元字符 `
( )	分组元字符 `()`将括号之间的表达式定义为组(group)，并且将匹配这个子表达式的字符返回
\\	转义元字符 `\\` 用来匹配元字符本身时的转义，和特定字符组成字符串，见预定义字符组

2.1 通配符 `.`

匹配除 \\n 之外的任何单个字符

s1 = "testing123"
s2 = "testing123\\n"
r = re.findall(".", s1)
print(r)

运行结果：

[\'t\', \'e\', \'s\', \'t\', \'i\', \'n\', \'g\', \'1\', \'2\', \'3\']

r = re.findall(".", s2)  # 除“\\n”
print(r)

运行结果：

[\'t\', \'e\', \'s\', \'t\', \'i\', \'n\', \'g\', \'1\', \'2\', \'3\']

修饰符 re.S 使 . 匹配包括换行在内的所有字符

r = re.findall(".", s2, re.S)  
print(r)

运行结果：

[\'t\', \'e\', \'s\', \'t\', \'i\', \'n\', \'g\', \'1\', \'2\', \'3\', \'\\n\']

2.2 脱字符 `^`

匹配输入字符串的开始位置

s1 = "testing\\nTesting\\ntest"

r = re.findall("^test", s1)  # 默认只匹配单行
print(r)

运行结果：

[\'test\']

r = re.findall("^test", s1, re.M)   # 修饰符re.M:多行匹配
print(r)

运行结果：

[\'test\', \'test\']

r = re.findall("^test", s1, re.I | re.M)  
print(r)  # 输出[\'test\', \'Test\', \'test\']

运行结果：

[\'test\', \'Test\', \'test\']

2.3 美元符 `$`

匹配输入字符串的结束位置

s1 = "testing\\nTesting\\ntest"
r = re.findall("testing$", s1)  # 默认匹配单行
print(r)

运行结果：

[]

r = re.findall("testing$", s1, re.M)   # 修饰符re.M:多行匹配
print(r)  # 输出[\'testing\']

运行结果：

[\'testing\']

r = re.findall("testing$", s1, re.I | re.M)    # 多个修饰符通过 OR(|) 来指定
print(r)  # 输出[\'testing\', \'Testing\']

运行结果：

[\'testing\', \'Testing\']

2.4 重复元字符 `*,+,?`

* 匹配前面的子表达式任意次
+ 匹配前面的子表达式一次或多次（至少一次）
? 匹配前面的子表达式 0 次或 1 次

s1 = "z\\nzo\\nzoo"
r = re.findall("zo*", s1)     # 匹配o0，
print(r)

运行结果：

[\'z\', \'zo\', \'zoo\']

r = re.findall("zo+", s1)   # 匹配o1，
print(r)

运行结果：

[\'zo\', \'zoo\']

r = re.findall("zo?", s1)    # 匹配o0，1
print(r)

运行结果：

[\'z\', \'zo\', \'zo\']

2.5 重复元字符

也是控制匹配前面的子表达式次数

s1 = "z\\nzo\\nzoo"
r = re.findall("zo*", s1)     # 匹配o0,,逗号后不能空格
r1 = re.findall(r"zo0,", s1)
print(r)  # [\'z\', \'zo\', \'zoo\']
print(r1)  # [\'z\', \'zo\', \'zoo\']

运行结果：

[\'z\', \'zo\', \'zoo\']
[\'z\', \'zo\', \'zoo\']

r = re.findall("zo+", s1)   # 匹配o1，
r1 = re.findall(r"zo1,", s1)
print(r)  # 输出[\'zo\', \'zoo\']
print(r1)  # 输出[\'zo\', \'zoo\']

运行结果：

[\'zo\', \'zoo\']
[\'zo\', \'zoo\']

r1 = re.findall("zo2", s1)  
print(r1)  # 输出[\'zoo\']

运行结果：

[\'zoo\']

2. 6 字符组 `[]`

表示匹配给出的任意字符

s1 = "吴建国\\n李建国\\n黄建国"

r = re.findall("[黄刘李]建国", s1)   # 匹配包含的任意字符
print(r)

运行结果：

[\'李建国\', \'黄建国\']

s1 = "test\\nTesting\\nzoo"
r = re.findall("[e-o]", s1)   # 匹配包含的字符范围
print(r)

运行结果：

[\'e\', \'e\', \'i\', \'n\', \'g\', \'o\', \'o\']

s1 = "test\\nTesting\\nzoo"
r = re.findall("^[tz]", s1, re.M)   # 回忆脱字符，匹配以[tz]开头字符。
print(r)

运行结果：

[\'t\', \'z\']

s1 = "吴建国\\n李建国\\n黄建国"
r = re.findall("[^黄刘李]建国", s1)    # ^放到[]的里面，表示排除
print(r)

运行结果：

[\'吴建国\']

s1 = "test\\nTesting\\nzoo"
r1 = re.findall("[^e-o]", s1)    # 匹配未包含的字符范围
print(r1)  # 输出[\'t\', \'s\', \'t\', \'\\n\', \'T\', \'s\', \'t\', \'\\n\', \'z\']
[\'t\', \'s\', \'t\', \'\\n\', \'T\', \'s\', \'t\', \'\\n\', \'z\']

2.7 选择元字符 `|`

表示两个表达式选择一个匹配

s1 = "z\\nzood\\nfood"
r = re.findall("z|food", s1)   # 匹配"z"或"food"
print(r)

[\'z\', \'z\', \'food\']

r = re.findall("[z|f]ood", s1)   # 匹配"zood"或"food"
print(r)  #

[\'zood\', \'food\']

2.8 分组元字符 `()`

将括号之间的表达式定义为组(group)，并且将匹配这个子表达式的字符返回

s1 = "z\\nzood\\nfood"
r = re.findall("[z|f]o*", s1)   # 不加分组，拿到的引号内正则表达式匹配到的字符
print(r)

[\'z\', \'zoo\', \'foo\']

r = re.findall("[z|f](o*)", s1)   # 加上分组，返回的将是引号内正则表达式匹配到的字符中（）中的内容。
print(r)  # [\'\', \'oo\', \'oo\']

[\'\', \'oo\', \'oo\']

2.9 转义元字符 `\\`

用来匹配元字符本身时的转义，和特定字符组成字符串，见预定义字符组

s = \'12345@qq.com\'
r = re.findall(\'\\.\', s)
print(r)

[\'.\']

2.10 非贪婪模式

非贪婪模式

在默认情况下，元字符 *,+ 和 n,m 会尽可能多的匹配前面的子表达式，这叫贪婪模式。

s = "abcadcaec"

r = re.findall(r"ab.*c", s)   # 贪婪模式，尽可能多的匹配字符(.*或者.+)
print(r)

[\'abcadcaec\']

在重复元字符后面加上一个?号就表示非贪婪，尽可能少的匹配

r = re.findall(r"ab.+?c", s)   # 非贪婪模式，尽可能少的匹配字符
print(r)

[\'abcadc\']

r = re.findall(r"ab.*?c", s)   # 非贪婪模式，尽可能少的匹配字符
print(r)

[\'abc\']

s = "<a href=\' asdf\'>1360942725</a>"
a = re.findall(\'\\d\', s)
print(a)

[\'1\', \'3\', \'6\', \'0\', \'9\', \'4\', \'2\', \'7\', \'2\', \'5\']

a = re.findall(\'\\D\', s)
print(a)

[\'<\', \'a\', \' \', \'h\', \'r\', \'e\', \'f\', \'=\', "\'", \' \', \'a\', \'s\', \'d\', \'f\', "\'", \'>\', \'<\', \'/\', \'a\', \'>\']

s = \'fdfa**68687+ 我怕n fdg\\tf_d\\n\'
a = re.findall(\'\\s\', s)
print(a)

[\' \', \' \', \'\\t\', \'\\n\']

a = re.findall("\\w", s)
print(a)

[\'f\', \'d\', \'f\', \'a\', \'6\', \'8\', \'6\', \'8\', \'7\', \'我\', \'怕\', \'n\', \'f\', \'d\', \'g\', \'f\', \'_\', \'d\']

3. 预定义字符组

元字符 \\ 与某些字符组合在一起表示特定的匹配含义

3.1 `\\d`

匹配单个数字，等价于[0-9]

s = "<a href=\' asdf\'>1360942725</a>"
a = re.findall(\'\\d\', s)
print(a)

运行结果：

[\'1\', \'3\', \'6\', \'0\', \'9\', \'4\', \'2\', \'7\', \'2\', \'5\']

a = re.findall(\'\\d+\', s)
print(a)

运行结果：

[\'1360942725\']

3.2 `\\D`

匹配任意单个非数字字符，等价于[^0-9]

a = re.findall(\'\\D\', s)
print(a)

运行结果：

[\'<\', \'a\', \' \', \'h\', \'r\', \'e\', \'f\', \'=\', "\'", \' \', \'a\', \'s\', \'d\', \'f\', "\'", \'>\', \'<\', \'/\', \'a\', \'>\']

3.3 `\\s`

匹配任意单个空白符，包括空格，制表符(tab)，换行符等

s = \'fdfa**68687+ 我怕n fdg\\tf_d\\n\'
a = re.findall(\'\\s\', s)
print(a)

运行结果：

[\' \', \' \', \'\\t\', \'\\n\']

3.4 \\S

匹配任何非空白字符

s = \'fdfa**68687+ 我怕n fdg\\tf_d\\n\'
a = re.findall(\'\\S\', s)
print(a)

运行结果：

[\'f\', \'d\', \'f\', \'a\', \'\', \'\', \'6\', \'8\', \'6\', \'8\', \'7\', \'+\', \'我\', \'怕\', \'n\', \'f\', \'d\', \'g\', \'f\', \'_\', \'d\']

3.5 \\w

匹配除符号外的单个字母，数字，下划线或汉字等

a = re.findall("\\w", s)
print(a)

运行结果：

[\'f\', \'d\', \'f\', \'a\', \'6\', \'8\', \'6\', \'8\', \'7\', \'我\', \'怕\', \'n\', \'f\', \'d\', \'g\', \'f\', \'_\', \'d\']

元字符	说明
.	匹配除换行符以外的任意字符
\\w	匹配字母或数字或下划线
\\W	和 \\w 相反
\\d	匹配数字
\\D	和 \\d 相反
\\s	匹配任意的空白符
\\S	和 \\s 相反

小案例

检测邮箱

s = "3003756995@qq.com"
a = re.findall(\'^\\w+@\\w+\\.com$\', s) # 检测邮箱
if a:
    print(\'是正确格式的邮箱\')
else:
    print(\'不是邮箱地址\')

是正确格式的邮箱

检测手机号码

s = \'13812345678\'
r = re.findall(\'^1[3-9]\\d9$\', s)  # 检查手机号码
if r:
    print(\'手机号码格式正确\')
else:
    print(\'手机号码格式不正确\')

手机号码格式正确

4.re 模块常用函数

4.1 `re.match`

```
re.match(pattern, string, flag)
```
Plain text
- 尝试从字符串的起始位置匹配一个模式，成功返回匹配对象，否则返回 None
- pattern: 正则表达式
- string: 被匹配的字符串
- flag: 标志位，表示匹配模式

import re
url = \'www.hhxpython.com\'
res = re.match(\'www\', url)    # \'www\' 就是正则表达式，没有元字符表示匹配字符本身
                              # re.match默认是从字符串开头匹配，等价于\'^www\'
print(res)

运行结果：

<re.Match object; span=(0, 3), match=\'www\'>

res2 = re.match(\'hhx\', url)
print(res2)

运行结果：

None

匹配对象

match 函数返回一个匹配对象，通过这个对象可以取出匹配到的字符串和分组字符串

line = \'Good good study, Day day up!\'
match_obj = re.match(\'(?P<aa>.*), (.*) (.*)\', line)  
if match_obj: 
    print(match_obj.group())    # 返回匹配到的字符串
    print(match_obj.group(1))   # 返回对应序号分组字符串 从1开始
    print(match_obj.group(2))
    print(match_obj.group(3))
else:
    print(\'not found\')
print(match_obj.groups())  # 返回分组字符串元组
print(match_obj.groupdict())  # 按照分组名和分组字符串组成字典 (?P<name>pattern)

运行结果：

Good good study, Day day up!
Good good study
Day day
up!
(\'Good good study\', \'Day day\', \'up!\')
\'aa\': \'Good good study\'

4.2 `re.search`

```
re.search(pattern, string, flag)
```
Plain text
- 扫描整个字符串返回第一个成功的匹配对象
- pattern: 正则表达式
- string: 被匹配的字符串
- flag: 标志位，表示匹配模式

url = \'www.hhxpython.com\'
res = re.search(\'www\', url)    # \'www\' 就是正则表达式，没有元字符表示匹配字符本身
print(res)

运行结果：

<re.Match object; span=(0, 3), match=\'www\'>

res2 = re.search(\'hhx\', url)
print(res2)

运行结果：

<re.Match object; span=(4, 7), match=\'hhx\'>

res3 = re.search(\'h\', url)
print(res3)

运行结果：

<re.Match object; span=(4, 5), match=\'h\'>

4.3 `re.sub`

```
re.sub(pattern, repl, string, count=0, flag)
```
Plain text
- 将表达式匹配到的部分替换为制定字符串，返回替换后的新字符串
- pattern: 正则表达式
- repl: 用来替换的字符串
- string: 被匹配的字符串
- count: 替换次数，默认为 0，表示全部替换
- flags: 标志位，表示匹配模式

phone = \'2004-959-559 # 这是一个国外电话号码\'

# 删除字符串中的python注释
num = re.sub(\'#.*\', \'\', phone)
print(num)

运行结果：

2004-959-559
# 删除连接符号 -
num = re.sub(\'-\', \'\', num)
print(num)

运行结果：

2004959559

4.4 `re.findall`

```
re.findall(pattern, string, flags=0)
```
Plain text
- 在字符串中找到正则表达式匹配的所有子串，返回一个列表，匹配失败则返回空列表
- pattern: 正则表达式
- string: 被匹配的字符串
- flags: 标志位，表示匹配模式

res1 = re.findall(\'day\', line, re.I)
res2 = re.search(\'day\', line, re.I)
res3 = re.match(\'day\', line, re.I)

print(\'findall\', res1)
print(\'search\', res2.group())
print(\'search\', res3)

运行结果：

findall [\'Day\', \'day\']
search Day
search None

`match`,`search`,`findall` 的区别

match 从头开始匹配，成功返回匹配对象，失败返回 None
search 只匹配第一个，成功返回匹配对象，失败返回 None
findall 匹配所有，成功返回所有匹配到的字符串组成的列表，失败返回空列表

4.5 `re.compile`

```
re.compile(pattern, [flags])
```
Plain text
- compile 函数用于编译正则表达式，生成一个正则表达式对象，该对象调用 findall，search，match，sub 等方法
- pattern: 正则表达式
- flags: 标志位，表示匹配模式
  面向对象编程时使用

pattern = re.compile(\'day\', re.I)
res1 = pattern.findall(line)
res2 = pattern.search(line)
res3 = pattern.match(line)
print(\'findall\', res1)
print(\'search\', res2.group())
print(\'match\', res3)

运行结果：

findall [\'Day\', \'day\']
search Day
match None

三、正则表达式超全速查手册

校验数字的表达式

数字：^[0-9]*$

n位的数字：^\\dn$

至少n位的数字：^\\dn,$

m-n位的数字：^\\dm,n$

零和非零开头的数字：^(0|[1-9][0-9]*)$

非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]1,2)?$

带1-2位小数的正数或负数：^(\\-)?\\d+(\\.\\d1,2)?$

正数、负数、和小数：^(\\-|\\+)?\\d+(\\.\\d+)?$

有两位小数的正实数：^[0-9]+(.[0-9]2)?$

有1~3位小数的正实数：^[0-9]+(.[0-9]1,3)?$

非零的正整数：^[1-9]\\d*$ 或 ^([1-9][0-9]*)1,3$ 或 ^\\+?[1-9][0-9]*$

非零的负整数：^\\-[1-9][]0-9"*$ 或 ^-[1-9]\\d*$
非负整数：^\\d+$ 或 ^[1-9]\\d*|0$

非正整数：^-[1-9]\\d*|0$ 或 ^((-\\d+)|(0+))$

非负浮点数：^\\d+(\\.\\d+)?$ 或 ^[1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*|0?\\.0+|0$

非正浮点数：^((-\\d+(\\.\\d+)?)|(0+(\\.0+)?))$ 或 ^(-([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*))|0?\\.0+|0$

正浮点数：^[1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*$ 或 ^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$

负浮点数：^-([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*)$ 或 ^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

浮点数：^(-?\\d+)(\\.\\d+)?$ 或 ^-?([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*|0?\\.0+|0)$

校验字符的表达式

汉字：^[\\u4e00-\\u9fa5]0,$

英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]4,40$

长度为3-20的所有字符：^.3,20$

由26个英文字母组成的字符串：^[A-Za-z]+$

由26个大写英文字母组成的字符串：^[A-Z]+$

由26个小写英文字母组成的字符串：^[a-z]+$

由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$

由数字、26个英文字母或者下划线组成的字符串：^\\w+$ 或 ^\\w3,20

中文、英文、数字包括下划线：^[\\u4E00-\\u9FA5A-Za-z0-9_]+$

中文、英文、数字但不包括下划线等符号：^[\\u4E00-\\u9FA5A-Za-z0-9]+$ 或 ^[\\u4E00-\\u9FA5A-Za-z0-9]2,20$

可以输入含有^%&\',;=?\\" 等字符：`[^%&\',;=?\\x22]+`

禁止输入含有~的字符[^~\\x22]+

其它


.*匹配除 \\n 以外的任何字符。/[\\u4E00-\\u9FA5]/ 汉字
/[\\uFF00-\\uFFFF]/ 全角符号
/[\\u0000-\\u00FF]/ 半角符号

特殊需求表达式

Email 地址：^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$

域名：[a-zA-Z0-9][-a-zA-Z0-9]0,62(/.[a-zA-Z0-9][-a-zA-Z0-9]0,62)+/.? InternetURL：[a-zA-z]+://[^\\s]* 或 ^http://([\\w-]+\\.)+[\\w-]+(/[\\w-./?%&=]*)?$
手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d8$
电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX)：^(\\(\\d3,4-)|\\d3.4-)?\\d7,8$

国内电话号码(0511-4405222、021-87888822)：\\d3-\\d8|\\d4-\\d7

身份证号(15位、18位数字)：^\\d15|\\d18$

短身份证号码(数字、字母x结尾)：^([0-9])7,18(x|X)?$ 或 ^\\d8,18|[0-9x]8,18|[0-9X]8,18?$

帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]4,15$

密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\\w5,17$

强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).8,10$

日期格式：^\\d4-\\d1,2-\\d1,2

一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

钱的输入格式

有四种钱的表示形式我们可以接受:”10000.00” 和 “10,000.00”, 和没有 “分” 的 “10000” 和 “10,000”：^[1-9][0-9]*$

这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0”不通过,所以我们采用下面的形式：^(0|[1-9][0-9]*)$

一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]*)$

4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：^[0-9]+(.[0-9]+)?$

必须说明的是,小数点后面至少应该有1位数，所以”10.”是不通过的,但是 “10” 和 “10.2” 是通过的：^[0-9]+(.[0-9]2)?$

这样我们规定小数点后面必须有两位，如果你认为太苛刻了，可以这样：^[0-9]+(.[0-9]1,2)?$

这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了，我们可以这样：^[0-9]1,3(,[0-9]3)*(.[0-9]1,2)?$

1到3个数字,后面跟着任意个逗号+3个数字，逗号成为可选，而不是必须：^([0-9]+|[0-9]1,3(,[0-9]3)*)(.[0-9]1,2)?$

备注：这就是最终结果了,别忘了+可以用*替代如果你觉得空字符串也可以接受的话，最后,别忘了在用函数时去掉去掉那个反
xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

中文字符的正则表达式：[\\u4e00-\\u9fa5]

双字节字符：^\\x00-\\xff)

空白行的正则表达式：\\n\\s*\\r (可以用来删除空白行)

HTML标记的正则表达式：<(\\S?)[^>]>.?</\\1>|<.? />(网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)

首尾空白字符的正则表达式：^\\s|\\s
(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)

腾讯QQ号：[1-9][0-9]4,(腾讯QQ号从10000开始)

中国邮政编码：[1-9]\\d5(?!\\d)(中国邮政编码为6位数字)

IP地址：\\d+.\\d+.\\d+.\\d+(提取IP地址时有用)

IP地址：((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.)3(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

IP-v4地址：\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.)3(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b(提取IP地址时有用)
校验IP-v6地址:

(([0-9a-fA-F]1,4:)7,7[0-9a-fA-F]1,4|([0-9a-fA-F]1,4:)1,7:|([0-9a-fA-F]1,4:)1,6:[0-9a-fA-F]1,4|([0-9a-fA-F]1,4:)1,5(:[0-9a-fA-F]1,4)1,2|([0-9a-fA-F]1,4:)1,4(:[0-9a-fA-F]1,4)1,3|([0-9a-fA-F]1,4:)1,3(:[0-9a-fA-F]1,4)1,4|([0-9a-fA-F]1,4:)1,2(:[0-9a-fA-F]1,4)1,5|[0-9a-fA-F]1,4:((:[0-9a-fA-F]1,4)1,6)|:((:[0-9a-fA-F]1,4)1,7|:)|fe80:(:[0-9a-fA-F]0,4)0,4%[0-9a-zA-Z]1,|::(ffff(:01,4)0,1:)0,1((25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])\\\\.)3,3(25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])|([0-9a-fA-F]1,4:)1,4:((25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])\\\\.)3,3(25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9]))

子网掩码：

((?:(?:25[0-5]|2[0-4]\\\\d|[01]?\\\\d?\\\\d)\\\\.)3(?:25[0-5]|2[0-4]\\\\d|[01]?\\\\d?\\\\d))

校验日期:

^(?:(?!0000)[0-9]4-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]2(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$("yyyy-mm-dd")

抽取注释：

查找CSS属性:^\\\\s*[a-zA-Z\\\\-]+\\\\s*[:]1\\\\s[a-zA-Z0-9\\\\s.#]+[;]1

提取页面超链接:(<a\\\\s*(?!.*\\\\brel=)[^>]*)(href="https?:\\\\/\\\\/)((?!(?:(?:www\\\\.)?\'.implode(\'|(?:www\\\\.)?\', $follow_list).\'))[^" rel="external nofollow" ]+)"((?!.*\\\\brel=)[^>]*)(?:[^>]*)>

提取网页图片:\\\\< *[img][^\\\\\\\\>]*[src] *= *[\\\\"\\\\\']0,1([^\\\\"\\\\\'\\\\ >]*)

提取网页颜色代码:^#([A-Fa-f0-9]6|[A-Fa-f0-9]3)$

文件扩展名效验:^([a-zA-Z]\\\\:|\\\\\\\\)\\\\\\\$[^\\\\\\\\]+\\\\\\\$*[^\\\\/:*?"<>|]+\\\\.txt(l)?$

判断IE版本：^.*MSIE [5-8](?:\\\\.[0-9]+)?(?!.*Trident\\\\/[5-9]\\\\.0).*$

全网最全正则实战指南，拿走不谢

大家好，我是冰河~~

最近有很多小伙伴问我为啥会有那么多的时间写文章，录视频，好吧，今天我就给大家分享下我平时工作中会经常使用的一些小工具吧。

我用了两天时间整理了这些工作用常用的正则表达式，熟练掌握这些，你能够比其他人少些很多代码，从而有更多的时间做自己的事情，小伙伴们拿走，不谢～

这次我把工作中总结的经常使用的正则表达式共享出来了，正是掌握了这些正则表达式，冰河平均每天比别人少写200行代码，极大的提高了研发效率，建议小伙伴们收藏，平时尝试着使用到自己的项目中！！

熟练的掌握正则表达式，能够帮助程序员以最快的速度写出最优雅的代码。

冰河在多年的编程工作中，对使用过的正则表达式进行了梳理和总结，这些正则表达式能够帮助你节省很多的编码时间，往往一个简单的正则表达式就能够省略大量的if...else...代码。

这次，冰河向小伙伴们公开了自己平时经常使用的正则表达式，希望能够为小伙伴们带来实质性的帮助。

冰河常用正则

整数或者小数

^[0-9]+\\.0,1[0-9]0,2$

只能输入数字

^[0-9]*$

只能输入n位的数字

^\\dn$

只能输入至少n位的数字

^\\dn,$

只能输入m~n位的数字

^\\dm,n$

只能输入零和非零开头的数字

^(0|[1-9][0-9]*)$

只能输入有两位小数的正实数

^[0-9]+(.[0-9]2)?$

只能输入有1~3位小数的正实数

^[0-9]+(.[0-9]1,3)?$

只能输入非零的正整数

^\\+?[1-9][0-9]*$

只能输入非零的负整数

^\\-[1-9][]0-9*$

只能输入长度为3的字符

^.3$

只能输入由26个英文字母组成的字符串

^[A-Za-z]+$

只能输入由26个大写英文字母组成的字符串

^[A-Z]+$

只能输入由26个小写英文字母组成的字符串

^[a-z]+$

只能输入由数字和26个英文字母组成的字符串

^[A-Za-z0-9]+$

只能输入由数字、26个英文字母或者下划线组成的字符串

^\\w+$

验证用户密码：

^[a-zA-Z]\\w5,17$

注：正确格式为：以字母开头，长度在6~18之间，只能包含字符、数字和下划线。

验证是否含有^%&',;=?$\\等字符

[^%&',;=?$\\x22]+

只能输入汉字

^[\\u4e00-\\u9fa5]0,$

验证Email地址

^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$

验证Internet URL

^[http|https]://([\\w-]+\\.)+[\\w-]+(/[\\w-./?%&=]*)?$

验证电话号码

^(\\(\\d3,4-)|\\d3.4-)?\\d7,8$

正确格式为：XXX-XXXXXXX、XXXX- XXXXXXXX、XXX-XXXXXXX、XXX-XXXXXXXX、XXXXXXX和XXXXXXXX

验证身份证号（15位或18位数字）

^\\d15|\\d18$

验证一年的12个月

^(0?[1-9]|1[0-2])$

正确格式为：01～09和1～12

验证一个月的31天

^((0?[1-9])|((1|2)[0-9])|30|31)$

正确格式为；01～09和1～31

匹配中文字符的正则表达式

[\\u4e00-\\u9fa5]

匹配双字节字符(包括汉字在内)

[^\\x00-\\xff]

匹配空行的正则表达式

\\n[\\s| ]*\\r

匹配html标签的正则表达式

<(.*)>(.*)<\\/(.*)>|<(.*)\\/>

匹配首尾空格的正则表达式

(^\\s*)|(\\s*$)

匹配Email地址的正则表达式

\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*

匹配HTML标记的正则表达式

<(\\S*?)[^>]*>.*?|<.*? />

评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式

^\\s*|\\s*$

评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式

\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*

评注：表单验证时很实用

匹配网址URL的正则表达式

[a-zA-z]+://[^\\s]*

评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配账号是否合法(字母开头，允许5-16字节，允许字母数字下划线)

^[a-zA-Z][a-zA-Z0-9_]4,15$

评注：表单验证时很实用

匹配国内电话号码

\\d3-\\d8|\\d4-\\d7

评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号

[1-9][0-9]4,

评注：腾讯QQ号从10000开始

匹配中国邮政编码

[1-9]\\d5(?!\\d)

评注：中国邮政编码为6位数字

匹配身份证

\\d15|\\d18

评注：中国的身份证为15位或18位

匹配ip地址

\\d+\\.\\d+\\.\\d+\\.\\d+

评注：提取ip地址时有用

匹配特定数字

^[1-9]\\d*$ //匹配正整数
^-[1-9]\\d*$ //匹配负整数
^-?[1-9]\\d*$ //匹配整数
^[1-9]\\d*|0$ //匹配非负整数（正整数 + 0）
^-[1-9]\\d*|0$ //匹配非正整数（负整数 + 0）
^[1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*$ //匹配正浮点数
^-([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*)$ //匹配负浮点数
^-?([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*|0?\\.0+|0)$ //匹配浮点数
^[1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*|0?\\.0+|0$ //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*))|0?\\.0+|0$//匹配非正浮点数（负浮点数 + 0）s

评注：处理大量数据时有用，具体应用时注意修正。

匹配特定字符串

^[A-Za-z]+$//匹配由26个英文字母组成的字符串
^[A-Z]+$//匹配由26个英文字母的大写组成的字符串
^[a-z]+$//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$//匹配由数字和26个英文字母组成的字符串
^\\w+$//匹配由数字、26个英文字母或者下划线组成的字符串

评注：最基本也是最常用的一些表达式

校验密码强度例如密码的强度为：包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间。

^(?=.*\\\\d)(?=.*[a-z])(?=.*[A-Z]).8,10$

校验字符串

中文。

^[\\\\u4e00-\\\\u9fa5]0,$

由数字、26个英文字母或下划线组成的字符串

^\\\\w+$

校验E-Mail 地址

[\\\\w!#$%&'*+/=?^_`|~-]+(?:\\\\.[\\\\w!#$%&'*+/=?^_`|~-]+)*@(?:[\\\\w](?:[\\\\w-]*[\\\\w])?\\\\.)+[\\\\w](?:[\\\\w-]*[\\\\w])?

校验身份证号码15位：

^[1-9]\\\\d7((0\\\\d)|(1[0-2]))(([0|1|2]\\\\d)|3[0-1])\\\\d3$

18位：

^[1-9]\\\\d5[1-9]\\\\d3((0\\\\d)|(1[0-2]))(([0|1|2]\\\\d)|3[0-1])\\\\d3([0-9]|X)$

校验日期“yyyy-mm-dd“ 格式的日期校验，已考虑平闰年。

^(?:(?!0000)[0-9]4-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]2(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$

校验金额精确到2位小数。

^[0-9]+(.[0-9]2)?$

校验手机号下面是国内 13、15、18开头的手机号正则表达式。（可根据目前国内收集号扩展前两位开头号码）

^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\\\d8$

判断IE的版本

^.*MSIE [5-8](?:\\\\.[0-9]+)?(?!.*Trident\\\\/[5-9]\\\\.0).*$

校验IP-v4地址

\\\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\\\.)3(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\\\b

校验IP-v6地址

(([0-9a-fA-F]1,4:)7,7[0-9a-fA-F]1,4|([0-9a-fA-F]1,4:)1,7:|([0-9a-fA-F]1,4:)1,6:[0-9a-fA-F]1,4|([0-9a-fA-F]1,4:)1,5(:[0-9a-fA-F]1,4)1,2|([0-9a-fA-F]1,4:)1,4(:[0-9a-fA-F]1,4)1,3|([0-9a-fA-F]1,4:)1,3(:[0-9a-fA-F]1,4)1,4|([0-9a-fA-F]1,4:)1,2(:[0-9a-fA-F]1,4)1,5|[0-9a-fA-F]1,4:((:[0-9a-fA-F]1,4)1,6)|:((:[0-9a-fA-F]1,4)1,7|:)|fe80:(:[0-9a-fA-F]0,4)0,4%[0-9a-zA-Z]1,|::(ffff(:01,4)0,1:)0,1((25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])\\\\.)3,3(25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])|([0-9a-fA-F]1,4:)1,4:((25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9])\\\\.)3,3(25[0-5]|(2[0-4]|10,1[0-9])0,1[0-9]))

检查URL的前缀

应用开发中很多时候需要区分请求是HTTPS还是HTTP，通过下面的表达式可以取出一个url的前缀然后再逻辑判断。

if (!s.match(/^[a-zA-Z]+:\\\\/\\\\//))

    s = 'http://' + s;

提取URL链接

下面的这个表达式可以筛选出一段文本中的URL。

^(f|ht)1(tp|tps):\\\\/\\\\/([\\\\w-]+\\\\.)+[\\\\w-]+(\\\\/[\\\\w- ./?%&=]*)?

文件路径及扩展名校验验证windows下文件路径和扩展名（下面的例子中为.txt文件）

^([a-zA-Z]\\\\:|\\\\\\\\)\\\\\\\\([^\\\\\\\\]+\\\\\\\\)*[^\\\\/:*?"<>|]+\\\\.txt(l)?$

提取网页颜色代码有时需要抽取网页中的颜色代码，可以使用下面的表达式。

^#([A-Fa-f0-9]6|[A-Fa-f0-9]3)$

提取网页图片

\\\\< *[img][^\\\\>]*[src] *= *[\\\\以上是关于最全的python正则使用的主要内容，如果未能解决你的问题，请参考以下文章

最全的python正则使用

正则表达式

一、概述

1. 概念

2. 目的

3. 特点：

4. 学习方法

二、正则表达式符号

1. 普通字符

2. 元字符

2.1 通配符 .

2.2 脱字符 ^

2.3 美元符 $

2.4 重复元字符 *,+,?

2.5 重复元字符

2. 6 字符组 []

2.7 选择元字符 |

2.8 分组元字符 ()

2.9 转义元字符 \\

2.10 非贪婪模式

非贪婪模式

3. 预定义字符组

3.1 \\d

3.2 \\D

3.3 \\s

4.re 模块常用函数

4.1 re.match

4.2 re.search

4.3 re.sub

4.4 re.findall

match,search,findall 的区别

4.5 re.compile

三、正则表达式超全速查手册

校验数字的表达式

校验字符的表达式

特殊需求表达式

钱的输入格式

全网最全正则实战指南，拿走不谢

冰河常用正则

2.1 通配符 `.`

2.2 脱字符 `^`

2.3 美元符 `$`

2.4 重复元字符 `*,+,?`

2. 6 字符组 `[]`

2.7 选择元字符 `|`

2.8 分组元字符 `()`

2.9 转义元字符 `\\`

3.1 `\\d`

3.2 `\\D`

3.3 `\\s`

4.1 `re.match`

4.2 `re.search`

4.3 `re.sub`

4.4 `re.findall`

`match`,`search`,`findall` 的区别

4.5 `re.compile`