爬虫基础之一：XPath插件语法及使用

Posted 2022-10-28 涂涂努力ing

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫基础之一：XPath插件语法及使用相关的知识，希望对你有一定的参考价值。

XPath插件语法及使用

最近在学习爬虫相关的知识，对于网页标签选取，google浏览器的插件xpath很好用，在此分享给大家。

在浏览器的扩展程序中搜索xpath，选择第一个安装，安装成功如下图所示：

路径表达式	描述
/div	从根节点开始选取div节点
//a	选取文档中所有a节点而不考虑位置
@class	选取名为class的属性
.	选取当前节点
…	选取当前节点的父节点
/div/a	从根节点开始选取div节点下的a节点
/div/a[2]/img	从根节点开始选取div节点下的第二个a节点下的img节点
//div[@class=‘header-wrapper’]	选取所有属性class的值为header-wrapper的div节点
//*	选取文档中的所有元素
//@*	选取文档中所有带属性的元素
/div/p/text()	选取p节点的文本内容
//div[contains(@class,“post”)]	选取带有class属性且包涵“post”的所有div节点，取反//div[not(contains(@class,“post”))]
/div/p[last()-1]	选取div下倒数第二个p节点
/div/p[position()>1]	选取div下第二个p节点后的所有兄弟节点
/div/a\|div/p	选取div下的a节点和div下的p节点

归纳来自于：https://www.imooc.com/video/22764

e.g.1 目标是利用xpath找到下图时间的内容

e.g.2 目标是找到下图所示文字

e.g.3 获取所有属性class的值为‘time’的div节点

希望对大家有帮助啊
继续愉快学习，涂涂努力ing！

以上是关于爬虫基础之一：XPath插件语法及使用的主要内容，如果未能解决你的问题，请参考以下文章