网络爬虫_XPath的学习

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫_XPath的学习相关的知识,希望对你有一定的参考价值。

    (1)简介:

    XPath是一门在XML文档中查找信息的语言,XPath可用来在XML文档中对元素和属性进行遍历。

    XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上。

    因此,对 XPath 的理解是很多高级 XML 应用的基础。

 

    XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

 

    XPath是什么

  *XPath 使用路径表达式在 XML 文档中进行导航

  *XPath 包含一个标准函数库

  *XPath 是 XSLT 中的主要元素

  *XPath 是一个 W3C 标准

 

    XPath 路径表达式

  XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

 

    XPath 标准函数

      XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。

 

    XPath 在 XSLT 中使用

      XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识,您就无法创建 XSLT 文档。

  XQuery 和 XPointer 均构建于 XPath 表达式之上。XQuery 1.0 和 XPath 2.0 共享相同的数据模型,并支持相同的函数和运算符。

 

    XPath 是 W3C 标准     

  XPath 于 1999 年 11 月 16 日 成为 W3C 标准。

  XPath 被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用。

 

    目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。

 

    (2)XPath 节点

  在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或成为根节点)。

 

    节点(Node)

  XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

      请看下面这个 XML 文档:

 1 <?xml version="1.0" encoding="ISO-8859-1"?>
 2 
 3 <bookstore>
 4 
 5 <book>
 6   <title lang="en">Harry Potter</title>
 7   <author>J K. Rowling</author> 
 8   <year>2005</year>
 9   <price>29.99</price>
10 </book>
11 
12 </bookstore>

 

  对于上面的XML文档中的节点的例子:

<bookstore> (文档节点)
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点) 

    

    基本值(或称原子值,Atomic value)

   基本值是无父或无子的节点。

      基本值的例子:

J K. Rowling
"en"

 

    项目(Item)

      项目是基本值或者节点。

 

    节点关系

   *父(Parent)

   每个元素以及属性都有一个父。

      在下面的例子中,book 元素是 title、author、year 以及 price 元素的父:

1 <book>
2   <title>Harry Potter</title>
3   <author>J K. Rowling</author>
4   <year>2005</year>
5   <price>29.99</price>
6 </book>

  *子(Children)

  元素节点可有零个、一个或多个子。

  在上面的例子中,title、author、year 以及 price 元素都是 book 元素的子。

     *同胞(Sibling)

  拥有相同的父的节点

  在上面的例子中,title、author、year 以及 price 元素都是同胞:

  *先辈(Ancestor)

  某节点的父、父的父,等等。

  在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素:

 1 <bookstore>
 2 
 3 <book>
 4   <title>Harry Potter</title>
 5   <author>J K. Rowling</author>
 6   <year>2005</year>
 7   <price>29.99</price>
 8 </book>
 9 
10 </bookstore>

       后代(Descendant)

   某个节点的子,子的子,等等。

   在上面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素。

 

    (3)XPath 语法

      XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

 

      XML 实例文档   

    我们将在下面的例子中使用这个 XML 文档:

 1 <?xml version="1.0" encoding="ISO-8859-1"?>
 2 
 3 <bookstore>
 4 
 5 <book>
 6   <title lang="eng">Harry Potter</title>
 7   <price>29.99</price>
 8 </book>
 9 
10 <book>
11   <title lang="eng">Learning XML</title>
12   <price>39.95</price>
13 </book>
14 
15 </bookstore>

 

      选取节点

  XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

  下面列出了最有用的路径表达式:

    技术分享

     实例

         在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

  技术分享

   

     谓语(Predicates)   

   谓语用来查找某个特定的节点或者包含某个指定的值的节点。

 

   谓语被嵌在方括号中。 

     实例

         在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

    技术分享

    

      选取未知节点

    XPath 通配符可用来选取未知的 XML 元素:

     技术分享

     实例

         在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

  技术分享

     

      选取若干路径

       通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

    实例:

 技术分享

以上是关于网络爬虫_XPath的学习的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫_XPath的学习

爬虫学习(十四)——xpath项目实践

xPath基本语法规则-Java网络爬虫系统性学习与实战系列

xPath基本语法规则-Java网络爬虫系统性学习与实战系列

Xpath语法-爬虫

Python爬虫(十三)_案例:使用XPath的爬虫