常见的爬虫分析库-xpath语法

Posted yunlongaimeng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见的爬虫分析库-xpath语法相关的知识,希望对你有一定的参考价值。

xpath简介

1.xpath使用路径表达式在xml和html中进行导航

2.xpath包含标准函数库

3.xpath是一个w3c的标准

xpath节点关系

1.父节点

2.子节点

3.同胞节点

4.先辈节点

5.后代节点

xpath语法

表达式 s说明
article  选取所有article元素的子节点
/article  选取根元素article
article/a 选取所有属于article的子元素a的元素
//div  选取所有div子元素(不论出现在文档任何地方)
/article//div 选取所有属于article元素的后代div元素。不管它出现在article元素之下的任何位置
//@class 选取所有名为class的属性
/article/div[1] 选取属于article子元素的第一个div元素
/article/div[last()] 选取属于article子元素的最后一个div元素
/article/div[last()-1] 选取属于article子元素的倒数第二个div元素
//div[@lang] 选取所有拥有lang熟悉的div元素
//div[@lang=‘eng‘] 选取所有lang属性为eng的元素
/div/* 选取属于div元素的所有子节点
//* 选取所有元素
//div[@*] 选取所有带属性div元素
/div/a|//div/p 选取所有div元素的a和p元素
//span|//ul 选取文档中的span和ul元素
article/div/p|//span 选取所有属于article元素的div元素的p元素,以及文档中所有的span元素

以上是关于常见的爬虫分析库-xpath语法的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫:通过爬取CSDN博客信息,学习lxml库与XPath语法

Python爬虫利器三之Xpath语法与lxml库的用法

爬虫之解析库Xpath

Python爬虫利器三之Xpath语法与lxml库的用法

xPath基本语法规则-Java网络爬虫系统性学习与实战系列

xPath基本语法规则-Java网络爬虫系统性学习与实战系列