常见的爬虫分析库-xpath语法
Posted yunlongaimeng
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见的爬虫分析库-xpath语法相关的知识,希望对你有一定的参考价值。
xpath简介
1.xpath使用路径表达式在xml和html中进行导航
2.xpath包含标准函数库
3.xpath是一个w3c的标准
xpath节点关系
1.父节点
2.子节点
3.同胞节点
4.先辈节点
5.后代节点
xpath语法
表达式 | s说明 |
article | 选取所有article元素的子节点 |
/article | 选取根元素article |
article/a | 选取所有属于article的子元素a的元素 |
//div | 选取所有div子元素(不论出现在文档任何地方) |
/article//div | 选取所有属于article元素的后代div元素。不管它出现在article元素之下的任何位置 |
//@class | 选取所有名为class的属性 |
/article/div[1] | 选取属于article子元素的第一个div元素 |
/article/div[last()] | 选取属于article子元素的最后一个div元素 |
/article/div[last()-1] | 选取属于article子元素的倒数第二个div元素 |
//div[@lang] | 选取所有拥有lang熟悉的div元素 |
//div[@lang=‘eng‘] | 选取所有lang属性为eng的元素 |
/div/* | 选取属于div元素的所有子节点 |
//* | 选取所有元素 |
//div[@*] | 选取所有带属性div元素 |
/div/a|//div/p | 选取所有div元素的a和p元素 |
//span|//ul | 选取文档中的span和ul元素 |
article/div/p|//span | 选取所有属于article元素的div元素的p元素,以及文档中所有的span元素 |
以上是关于常见的爬虫分析库-xpath语法的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫:通过爬取CSDN博客信息,学习lxml库与XPath语法