〖Python网络爬虫实战⑨〗- 正则表达式基本原理
Posted 爱吃饼干的小白鼠
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了〖Python网络爬虫实战⑨〗- 正则表达式基本原理相关的知识,希望对你有一定的参考价值。
- 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+
- 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)。
- 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。
最近更新
上节回顾
我们已经可以使用requests库来获取网页源代码,得到html代码、但是,我们想要的数据就在里面。我们怎么样才可以获取我们想要的数据呢。正则表达式就是其中一个有效的办法。本文,我们就来了解一下正则表达式的用法。
⭐️正则表达式
大家好,大家都听过正则表达式,却不知道正则表达式干什么的。正则表达式是一个特殊的符号系列,它可以帮助我们检查某个字符串和某种模式匹配。在python中,re库拥有全部的正则表达式的功能。
今天,我们来深入的了解一下。我们知道正则表达式是处理字符串的强大工具,它有自己的语法结构,什么匹配啊,都不算什么。
正则表达式是什么?
正则表达式,又称规则表达式,(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),它是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。 许多程序设计语言都支持利用正则表达式进行字符串操作。例如在 Perl 中内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件普及开的。正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
🌟1.实例引入
说了一大堆废话,大家可能还是云里雾里的,我们通过实例来说明一下,我们可以用正则表达式测试工具,或者python都可以,首先,我们输入一段文本。
hello,my name is Tina,my phone number is 123456 and my web is http://tina.com.
我们接下来尝试用正则表达式提取出来;
[a-zA-z]+://[^\\s]*
我们就可以获取网页链接,也就是文本中的url,是不是很神奇?
这是因为它有自己的匹配规则,部分如下。
模式 | 描述 |
. | 任意字符 |
* | 0个或者多个表达式 |
+ | 一个或者多个表达式 |
关于更多的匹配规则可自行查阅。
?,*,+,\\d,\\w 都是等价字符
?等价于匹配长度0,1
*等价于匹配长度0,
+等价于匹配长度1,
\\d 等价于[0-9]
\\D 等价于[^0-9]
\\w 等价于[A-Za-z_0-9]
\\W 等价于[^A-Za-z_0-9]
🌟2.match()
这里介绍一个常用的匹配方法——match(),向他传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。
✨匹配目标
res = re.match('hello\\s(\\d+)sword')
✨贪婪匹配
res = re.match('hello.*(\\d+)sword')
🌟3.findall()
我们最常用的就是这个,我们看看这个是如何使用的。
import re
useData = str(input('请输入字符串数据:'))
'''
匹配字符串中的数字,+是匹配前面的子表达式一次或多次
'''
digital = re.findall('\\d+',useData)
print(digital)
我们看看运行结果
findall()函数是返回所有匹配到的字符串,返回值的数据类型为列表。
🌟常用符号
我们再来说说正则表达式的常用符号吧。
“.”字符为匹配任意单个字符。
“\\”字符为转义字符。
“[…]”为字符集。
“(.*?)” 是python爬虫最常用的一个字符,叫贪心算法,可以匹配任意的字符。
下面我们看一个示例代码。
import re
a=‘xxixxjshdxxlovexxsfhxxpythonxx’
data=re.findall(‘xx(.*?)xx’)
print(data)
我们运行一下,看下效果。
运行结果
[‘I’ ,‘love’,‘python’]
🌟特殊字符
所谓特殊字符,就是一些有特殊含义的字符,比如讲 runoo*b 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \\,runo*ob 匹配字符串 runo\\*ob。
许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\\ 放在它们前面。下表列出了正则表达式中的特殊字符:
特别字符 | 描述 |
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\\n’ 或 ‘\\r’。要匹配 $ 字符本身,请使用 $。 |
() | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +。 |
. | 匹配除换行符 \\n 之外的任何单字符。要匹配 . ,请使用 . 。 |
概念说了一大堆,大家可能也记不住,我直接说几个案例,大家就能明白其他的道理。
这是某网的HTML,部分片段如下:
<span class=“price”>§<i>123</i></span>
<span class=“price”>§<i>133</i></span>
<span class=“price”>§<i>156</i></span>
<span class=“price”>§<i>189</i></span>
大家会发现只有中间的一段不一样,而不一样的数据就是我们想要的,我们怎么用正则表达式提取出来呢.
<span class=“price”>§<i>(.*?)</i></span>
就可以了,我们看看效果吧。
123
133
156
189
🌟总结
我们可以从HTML代码提取我们想要的数据。我们知道正则表达式就是其中一个有效的办法。通过本文我们基本了解了其中的原理。后面我们将通过两个具体案例来加深对正则表达式的理解。
Python 3网络爬虫开发实战书籍
Python 3网络爬虫开发实战书籍,教你学会如何用Python 3开发爬虫
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,*后介绍了pyspider框架、Scrapy框架和分布式爬虫。
很多初学者,对Python的概念都是模糊不清的,Python能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,详情可以点击有道云笔记链接了解:http://note.youdao.com/noteshare?id=e4fa02e7b56d7909a27674cdb3da08aa
以上是关于〖Python网络爬虫实战⑨〗- 正则表达式基本原理的主要内容,如果未能解决你的问题,请参考以下文章