正则
Posted kaxiu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则相关的知识,希望对你有一定的参考价值。
正则是一门编程语言
\\d+ 是替换数字
替换结果为tool.123.com|123
\\w+替换数字和字母
替换为apple.apple.apple|apple
【1】元字符(Metacharacters)
元字符是具有特殊含义的字符。
元字符 | 描述 |
[] | 匹配一个中括号中出现的任意一个元字符 |
[^元字符] | 匹配一个没有在中括号出现的任意元字符 |
\\ | 转义字符,可以把原子转换特殊元字符,也可以把特殊元字符转成元字符 |
^ | 叫开始边界符或开始锚点符,匹配一行的开头位置 |
$ | 叫结束边界符或结束锚点符,匹配一行的结束位置I |
. | 叫通配符、万能通配符或通配元字符,匹配1个除了换行符In以外任何元字符 |
* | 叫星号贪婪符,指定左边元字符出现0次或多次 |
? | 叫非贪婪符,指定左边元字符出现0次或1次+ |
+ | 叫加号贪婪符,指定左边元字符出现1次或多次n,m |
n,m | 叫数量范围贪婪符,指定左边元字符的数量范围,有{n},{n,},{(,m},{n,m}四种写法,其中n与m必须是非负整数。 |
| | 指定元字符或正则模式进行二选一或多选一0 |
() | 对元字符或正则模式进行捕获提取和分组划分整体操作, |
import re """re.findall(正则模式,文本) 基于正则模式查找所有匹配的文本内容""" # part1: 通配符-> . 字符集-> [] ret1 = re.findall("a", "a,b,c,d,e,a") ret1 = re.findall(".", "a,b,c,d,e") ret1 = re.findall("a.b", "a,b,c,d,e,acb,abb,a\\tb") ret1 = re.findall("[ace]", "a,b,c,d,e") # 字符集是集合 是一个符号 ret1 = re.findall("a[bce]f", "af,abf,abbf,acef,aef") ret1 = re.findall("[a-zA-Z]", "a,b,c,d,e,A,B,C,D,E,F") ret1 = re.findall("[0-9]", "a,b,2,d,6,8,A,B,C") ret1 = re.findall("[^0-9]", "a,b,2,d,6,8,A,B,C") # ^ 取反 ret1 = re.findall("\\d", "a,b,2,d,6,8,A,B,C") ret1 = re.findall("[a-zA-Z0-9]", "a,b,2,d,6,8,A,B,C") ret1 = re.findall("\\w","a,b,2,d,6,8,A,B,C") print(ret1)
正则表达式
正则表达式
正则表达式简介
什么是正则表达式
正则表达式:用于匹配规律规则的表达式,正则表达式最初是科学家对人类神经系统的工作原理的早期研究,现在在编程语言中有广泛的应用。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式的作用
- 给定的字符串是否符合正则表达式的过滤逻辑(匹配)
- 可以通过正则表达式,从字符串中获取我们想要的特定部分(提取)
- 强大的字符串替换能力(替换)
正则表达式的特点
- 灵活性、逻辑性和功能性非常的强
- 可以迅速地用极简单的方式达到字符串的复杂控制
- 对于刚接触的人来说,比较晦涩难懂
正则表达式的测试
- 在线测试正则
- 工具中使用正则表达式
- sublime/vscode/word
- 演示替换所有的数字
正则表达式的组成
- 普通字符
- 特殊字符(元字符):正则表达式中有特殊意义的字符
示例演示:
\\d
匹配数字ab\\d
匹配 ab1、ab2
元字符串
通过测试工具演示下面元字符的使用
常用元字符串
元字符 | 说明 |
---|---|
\\d | 匹配数字 |
\\D | 匹配任意非数字的字符 |
\\w | 匹配字母或数字或下划线 |
\\W | 匹配任意不是字母,数字,下划线 |
\\s | 匹配任意的空白符 |
\\S | 匹配任意不是空白符的字符 |
. | 匹配除换行符以外的任意单个字符 |
^ | 表示匹配行首的文本(以谁开始) |
$ | 表示匹配行尾的文本(以谁结束) |
限定符
限定符 | 说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
其它
[] 字符串用中括号括起来,表示匹配其中的任一字符,相当于或的意思
[^] 匹配除中括号以内的内容
\\ 转义符
| 或者,选择两者中的一个。注意|将左右两边分为两部分,而不管左右两边有多长多乱
() 从两个直接量中选择一个,分组
eg:gr(a|e)y匹配gray和grey
[\\u4e00-\\u9fa5] 匹配汉字
案例
验证手机号:
^\\d{11}$
验证邮编:
^\\d{6}$
验证日期 2012-5-01
^\\d{4}-\\d{1,2}-\\d{1,2}$
验证邮箱 xxx@itcast.cn:
^\\w+@\\w+\\.\\w+$
验证IP地址 192.168.1.10
^\\d{1,3}\\(.\\d{1,3}){3}$
正则代码使用
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>title</title>
<script>
/*
*
* 正则表达式:也叫规则表达式,按照一定的规则组成的一个表达式,这个表达式的作用主要是匹配字符串的,
* "我的电话:10086,他的电话:10010,你的电话:10000" 正则表达式,把这个字符串中的所有的数字找到
*
* 正则表达式的作用:匹配字符串的
*
* 在大多数编程语言中都可以使用
*
* 正则表达式的组成:是由元字符或者是限定符组成的一个式子
*
*
* 元字符:
*
* . 表示的是:除了\\n以外的任意的一个字符 "fdsfs238"
*
* [] 表示的是:范围, [0-9] 表示的是0到9之间的任意的一个数字, "789" [0-9]
* [1-7] 表示的是1到7之间的任意的一个数字
* [a-z] 表示的是:所有的小写的字母中的任意的一个
* [A-Z] 表示的是:所有的大写的字母中的任意的一个
* [a-zA-Z] 表示的是:所有的字母的任意的一个
* [0-9a-zA-Z] 表示的是: 所有的数字或者是字母中的一个
* [] 另一个函数: 把正则表达式中元字符的意义干掉 [.] 就是一个.
* | 或者 [0-9]|[a-z] 表示的是要么是一个数字,要么是一个小写的字母
* () 分组 提升优先级 [0-9]|([a-z])|[A-Z]
* ([0-9])([1-5])([a-z]) 三组, 从最左边开始计算
* (()(()))
*
*
* 都是元字符,但是也可以叫限定符,下面的这些
* * 表示的是:前面的表达式出现了0次到多次
* [a-z][0-9]* 小写字母中的任意一个 后面是要么是没有数字的,要么是多个数字的
* "fdsfs3223323" [a-z][0-9]*
*
* + 表示的是:前面的表达式出现了1次到多次
* [a-z][9]+ 小写字母一个后面最少一个9,或者多个9
* "fesfewww9fefds"
*
* ? 表示的是:前面的表达式出现了0次到1次,最少是0次,最多1次 ,另一个含义:阻止贪婪模式
* [4][a-z]? "1231234ij"
* 限定符:限定前面的表达式出现的次数
* {} 更加的明确前面的表达式出现的次数
* {0,} 表示的是前面的表达式出现了0次到多次,和 *一样的
* {1,} 表示的是前面的表达式出现了1次到多次,和 +一样的
* {0,1} 表示的是前面的表达式出现了0次到1次,和 ?一样的
* {5,10} 表示的是前面的表达式出现了5次到10次
* {4} 前面的表达式出现了4次
* {,10} 错误的========不能这么写
* ^ 表示的是以什么开始,或者是取非(取反) ^[0-9] 以数字开头
* ^[a-z] 以小写字母开始
* [^0-9] 取反,非数字
* [^a-z] 非小写字母
* [^0-9a-zA-Z_]
* $ 表示的是以什么结束 [0-9][a-z]$ 必须以小写字母结束
* ^[0-9][a-z] 相当于是严格模式 "3f2432e" "4f"
* \\d 数字中的任意一个,
* \\D 非数字中的一个
* \\s 空白符中的一个
* \\S 非空白符
* \\w 非特殊符号
* \\W 特殊符号
* \\b 单词的边界
* "what are you no sha lei"
*
*
*
*
*
*
* . 除了\\n以外的任意一个单个字符
* [] 范围
* () 分组,提升优先级
* | 或者
* * 0-多次
* + 1-多次
* ? 0-1次
* {0,} 和*一样
* {1,} 和+
* {0,1} 和?
*
* \\d 数字中的一个
* \\D 非数字
* \\s 空白符
* \\S 非空白符
* \\W 特殊符号
* \\w 非特殊符号 _
* ^ 取反,以什么开始
* $ 以什么结束
*
* \\b 单词边界
*
*
*
* */
</script>
</head>
<body>
</body>
</html>
以上是关于正则的主要内容,如果未能解决你的问题,请参考以下文章
day19——常用正则表达式re正则对象和正则匹配效率比较编译正则对象