正则表达式 与 XPath 语法领域细解,初学阶段的你,该怎么学?

Posted 梦想橡皮擦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式 与 XPath 语法领域细解,初学阶段的你,该怎么学?相关的知识,希望对你有一定的参考价值。

在 Python 爬虫采集领域,正则表达式到底要学多深?
同理,XPath 表达式要学多少才够用?
这两个问题是很多爬虫新人的疑问,而且这两个问题还没有标准答案……

本篇博客为你梳理,在初学爬虫阶段,二者你应该学到何种地步,给你定一个小目标,即初学的范围。

正则表达式

正则表达式在 Python 中,主要配合 re 模块使用,该模块应用难度不大,但正则表达式编写却困扰很多朋友。

正则难写的原因如下:

  1. 它也算是一门独立的编程语言,有自己的规范;
  2. 正则表达式独立于任何编程语言,也表示它可以和任意编程语言结合;
  3. 每个人写出的表达式不一致,即“每题”的答案都不唯一;
  4. 正则有语法,有修饰符,有元字符,有运算符的优先级,初学阶段概念有点庞杂,无从下手。

既然已经分析到正则难写的原因,那接下来逐一克服即可。

首先要明确第一个概念,正则是干什么的?

简单理解,正则表达式就是一种文本(字符串)的检索模式,它可以从一个长字符串中,匹配出目标字符串。

例如从 abc1234dfertg 中提取 1234

初学正则

初学阶段,上来要做的事情是了解正则的基本语法,从字符开始进行学习。

普通字符
这个是非常简单的,例如 a1 就是一个普通字符,应用到正则表达式里面,就可以去匹配指定字符串的 a 或者 1

顺着字符就扩展出来正则的核心内容了,元字符。

元字符
元字符就是,在正则中有特殊的含义的一些语法表述

常见的元字符如下:

  • \\d:匹配一个数字;
  • \\w:匹配字母、数字、下划线;

这里就会出现一个学习阶段的门槛,记忆元字符。

在初学阶段,尤其是初学 Python 爬虫采集阶段,那按照如下顺序记忆即可(必须掌握)。

  • .:匹配除换行符(\\n、\\r)之外的任何单个字符,一般比较简单的正则用 . 能匹配大多数内容了;
  • *:匹配前面的表达式 0 次~无限次;
  • +:匹配前面的表达式 1 次~无限次;
  • ?:匹配前面的子表达式 0 次或 1 次,这个 ? 还有一个用途为【当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的,非贪婪模式表示尽可能少的匹配所搜索的字符串】,这个有点绕,后文有参考案例;
  • \\:转义符,例如你想要匹配 .,需要用 \\.
  • \\s:注意是小写 s,匹配任何空白字符,包括空格、制表符、换页符等等,在解析 html 的时候,很常用,因为网页源码中经常出现换行情况;
  • [xyz]:匹配中框好中的任意一个字符;
  • (pattern):分组,并匹配出 pattern;

掌握并熟练的使用以上 8 个元字符,在初学爬虫阶段,一般的网页就能畅通无阻的进行解析了。

解释一下贪婪模式。

如果存在一个字符串为 www.csdn.com,你编写了正则如下:w+,此时能匹配到 www,该正则会尽可能多的去匹配 w 字符,当修改正则为:w+? 时,匹配到的结果为 w,即尽可能少的匹配,也就是 元字符 ? 使得正则变为了非贪婪模式。

初学正则在爬虫中的落地

有了上述元字符概念,你在去复盘爬虫 120 例之前的正则部分文章,会发现出现过很多次如下正则: (.*?),此时就能理解其含义,并且你也能知道,这是最普通的正则表达式,只能算是偷懒之作,但是写起来确实方便。

如果碰到的网页出现了换行或者空格,那上述正则将演变为 (.|\\s)*?,结合上文的必背元字符,你能理解其含义吗?

理解不了去学习就对了,毕竟我们又引入了一个元字符 |.|\\s 表示选择,匹配 .\\s,即匹配任意字符在加上空格。

基本的元字符熟悉之后,才能进行更多的扩展,学习其它元字符,使得你的正则表达式写的标准与高效。

除了元字符外,对于正则还需要学习的是修饰符,该内容不多,有如下几种:

  • i:忽略大小写;
  • g:全局匹配;
  • m:多行匹配;
  • s. 圆点符号,支持匹配空格。

这些内容不重点讲解的原因是:不同的编程语言有其特殊的实现方式,具体需要依旧语言本身来实现,例如 Python 的 re 模块,就有针对性的实现,你可以去检索 re 模块相关用法。

其余进阶内容,请重点围绕正则分组进行学习,该部分将在后期总结篇展现。

XPath 表达式

XPath 即 XML Path,一种在 XML 文档中查找节点元素的语言。

如果深入研究,XPath 依旧有非常多的知识点需要补充,但是作为初学爬虫采集,优先掌握如下内容即可。

初学阶段必会语法

XPath 路径表达式

这个路径与电脑硬盘路径获取基本一致。

先区分好 ///,它们分别表示从根节点选择,或者从任意位置的某个节点进行选择。

例如存在如下 XML 文档,根阶段为 root,其它内容如下所示

<root>
	<book bid="1">
		<author>橡皮擦(擦姐)</author>
	</book>
	<book bid="2">
		<author>橡皮擦(擦哥)</author>
	</book>
</root>

例如 /root/book,表示从根节点开始选择 book 节点,如果使用 /book,则无法匹配到任何数据。

使用 //book,则可以匹配到所有 book 元素。

直接使用 book 也可以匹配出所有的 book 节点。

XPath 测试方法,可以创建一个 HTML 文件,在后在开发者工具中使用 Ctrl+F 换出搜索框,即可测试,如下图所示。

当然浏览器会自动生成 HTML ,HEAD,BODY 节点,正常读取即可。

有了根节点概念之后,就可以类别出 . 表示当前节点,.. 表示当前节点父节点。当然还有 @ 可以选择某个属性,例如下述 XPath 表示提取 book 节点中 bid=1 的节点,语法格式如下:

/html/body/root/book[@bid=1]


提炼一下语法格式如下:

标签名[@属性=‘属性值’]	 # 如果是属性值为数字,去掉双引号也是可以的

如果直接使用 @属性,表示提取具备该属性的节点。

其它选择元素的方法

选择未知元素

在 XPath 中,可以使用 * 选择未知的节点,例如 /book/*/name,表示选择 book 节点下所有节点的 name 节点。

选择谓语

谓语表示查找某个特定的节点,或者包含某个指定的值的节点,谓语嵌套在 [] 中,例如:

选择第一个元素 /root/book[1],选择最后一个元素 /root/book[last()],上文提及的属性选择,也属于谓语的一种用法。

提取属性值或者标签中的文本值

在爬虫采集的时候,经常会用到提取标签的属性值,或者提取标签内部的文本值,提取标签属性值可参考如下案例:/book/@cid,提取标签文本,可参考案例为://book/text()

以上内容即为初学阶段需要掌握的 XPath 相关知识,当然多多益善,有的地方会告诉你可以直接从开发者工具复制 XPath,如下所示:

上述办法复制出来的 XPath 表达式,冗余内容非常多,建议还是自己编写完成。

下述内容为直接复制出的表达式。

/html/body/div[2]/div[5]

收藏时间

本文为《爬虫 120 例》的第 19 篇博客,虽然没有实际采集某个站点,但为你梳理了学习爬虫初期,正则表达式与 XPath 该学习哪些内容,相信这篇文章一定利于下个阶段的学习~

爬虫 120 例代码下载地址:https://codechina.csdn.net/hihell/python120,可否给个 Star。

来都来了,不发个评论,点个赞,收个藏吗?

今天是持续写作的第 199 / 200 天。
可以关注我,点赞我、评论我、收藏我啦。

更多精彩

《Python 爬虫 100 例》只需要 39.9 元,即可享受 100+篇博客阅读权,每篇不到 4 毛钱。

以上是关于正则表达式 与 XPath 语法领域细解,初学阶段的你,该怎么学?的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式、xpath、BeautifulSoup和JSONPath的区别?

初学爬虫

网页解析库-Xpath语法

Xpath()语法

Python Xpath语法

获取与正则表达式匹配的 HTML 单词的 XPATH