爬虫 xpath

Posted puqunzhu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫 xpath相关的知识,希望对你有一定的参考价值。

xpath简介

1.xpath使用路径表达式在xml和html中进行导航

2.xpath包含标准函数库

3.xpath是一个w3c的标准

xpath节点关系

1.父节点

2.字节点

3.同胞节点

4.先辈节点

4.后代节点

xpath语法

表达式 说明
article 选取所有article元素的所有字节点
/article 选取跟元素article
//div 选取所有属于article的子元素的a元素
article//div 选取所有属于article元素的后代的div元素,不管它出现在article之下的任何位置
//@class 选择所有名为class的属性
/div/* 选取属于 div元素的所有子节点
//* 选取所有元素
//div[@*] 选取所有带属性的title元素

xpath语法-谓语

表达式 说明
/article/div[1] 选取属于article子元素的第一个div元素
/article/div[last()] 选取属于article子元素的最后一个div元素
//div[@lang] 选取所有拥有lang属性的div元素
//div[@lang=‘eng‘] 选取所有lang属性为eng的div元素

以上是关于爬虫 xpath的主要内容,如果未能解决你的问题,请参考以下文章

Xpath语法-爬虫

Python爬虫--Xpath

python爬虫xpath的语法

Python爬虫杂记 - Xpath高级用法

python爬虫随笔—启动爬虫与xpath

爬虫之Xpath案例