正则表达式是个什么玩意儿?
Posted 海量大数据分析平台
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式是个什么玩意儿?相关的知识,希望对你有一定的参考价值。
数据分析时经常会写正则表达式
比如我们海量大数据分析平台中
【海量文本正则抽取】这个能力
很多朋友在经过客服人员讲解培训后
都会用了,并反馈良好
但多数人对写正则还是很头疼
今天上面给我下了一道死命令
让我在30分钟内给大家讲明白
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
虽说夸下海口说什么分钟内给大家讲明白,但是这东西一定要持续的用,才能形成稳定的记忆,毕竟正则这个东西根本不是设计用来给人阅读的。
典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。
通过使用正则表达式,可以:
替换文本。
可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。基于模式匹配从字符串中提取子字符串。
可以查找文档内或输入域内特定的文本。
先介绍几个在线正则表达式测试工具
我们待会写到的正则都可以用这个来测出来。
元字符是一个或一组代替一个或多个字符的字符。
举一个例子:
\ba\w*\b 匹配以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)。
\d+匹配1个或更多连续的数字。这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次。
\b\w{6}\b 匹配刚好6个字符的单词。
代码 | 说明 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线或汉字 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\b | 匹配单词的开始或结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
表1.常用的元字符
如果你想查找元字符本身的话,比如你查找 . ,或者 * ,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用 \ 来取消这些字符的特殊意义。因此,你应该使用 \. 和 \* 。当然,要查找 \ 本身,你也得用 \\.
例如:deerchao\.net匹配deerchao.net,C:\\Windows匹配C:\Windows。
你已经看过了前面的 * , + , {2} , {5,12} 这几个匹配重复的方式了。下面是正则表达式中所有的限定符(指定数量的代码,例如*,{5,12}等。
下面是一些使用重复的例子:
Windows\d+匹配Windows后面跟1个或更多数字
^\w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置)
代码/语法 | 说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
表2.常用的限定符
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:
例子: \S+ 匹配不包含空白符的字符串。
<a[^>]+> 匹配用尖括号括起来的以a开头的字符串。
代码/语法 | 说明 |
---|---|
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
表3.常用的反义代码
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
代码/语法 | 说明 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复1次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,m}? | 重复n到m次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
表4.懒惰限定符
都来练习一下吧!!!
http://www.bbtnews.com.cn/economy/channel/political68876.shtml
http://www.bbtnews.com.cn/mainland/channel/68745.shtml
http://www.bbtnews.com.cn/international/channel/political68771.shtml
http://www.bbtnews.com.cn/market/channel/political68896.shtml
http://www.bbtnews.com.cn/invest/channel/political68701.shtml
1.给以上url写匹配的1个正则,要求该正则能匹配上以上所有url
1.写1个正则能匹配上以下时间的正则
2009/04/30 07:42
2009/04/30 09:52
2.写1个正则能匹配上以下时间的正则
2009-4-3 7:15
2008-12-15 1:9
平台微博:http://weibo.com/hylandabd
以上是关于正则表达式是个什么玩意儿?的主要内容,如果未能解决你的问题,请参考以下文章