网络爬虫_XPath的学习

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫_XPath的学习相关的知识,希望对你有一定的参考价值。

    下面是22个运用XPath语法的实例:

    (1)基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径

    技术分享

    (2)如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)

    技术分享

    (3)星号 * 表示选择所有由星号之前的路径所定位的元素

    技术分享

    技术分享

    (4)方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

    技术分享

    (5)属性通过前缀 @ 来指定

    技术分享

    (6)属性的值可以被用来作为选择的准则, normalize-space函数删除了前部和尾部的空格, 并且把连续的空格串替换为一个单一的空格

    技术分享

    (7)count()函数可以计数所选元素的个数

    技术分享

    (8)name()函数返回元素的名称, start-with()函数在该函数的第一个参数字符串是以第二个参数字符开始的情况返回true, contains()函数当其第一个字符串参数包含有第二个字符串参数时返回true.

    技术分享

    (9)string-length函数返回字符串的字符数,你应该用&lt;替代<, 用&gt;代替>

    技术分享

    (10)多个路径可以用分隔符 | 合并在一起

    技术分享

    11 child轴(axis)包含上下文节点的子元素, 作为默认的轴,可以忽略不写.

    技术分享

    12 descendant (后代)轴包含上下文节点的后代,一个后代是指子节点或者子节点的子节点等等, 因此descendant轴不会包含属性和命名空间节点.

    技术分享

    技术分享

    (13)parent轴(axis)包含上下文节点的父节点, 如果有父节点的话

    技术分享

    14ancestor轴(axis)包含上下节点的祖先节点, 该祖先节点由其上下文节点的父节点以及父节点的父节点等等诸如此类的节点构成,所以ancestor轴总是包含有根节点,除非上下文节点就是根节点本身.

    技术分享

    15.preceding-sibling 轴(axis)包含上下文节点之前的所有兄弟节点

    技术分享

    16.following-sibling轴(axis)包含上下文节点之后的所有兄弟节点

    技术分享

    17.following轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点

    技术分享

    18.following轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点

    技术分享

    19.descendant-or-self 轴(axis)包含上下文节点本身和该节点的后代节点

    技术分享

    20 ancestor-or-self 轴(axis)包含上下文节点本身和该节点的祖先节点

    技术分享

    21 ancestor, descendant, following, preceding 和self轴(axis)分割了XML文档(忽略属性节点和命名空间节点), 不能交迭, 而一起使用则包含所有节点

    技术分享

    技术分享

    22 div运算符做浮点除法运算, mod运算符做求余运算, floor函数返回不大于参数的最大整数(趋近于正无穷), ceiling返回不小于参数的最小整数(趋近于负无穷)

    技术分享

    

    

以上是关于网络爬虫_XPath的学习的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫_XPath的学习

xPath基本语法规则-Java网络爬虫系统性学习与实战系列

xPath基本语法规则-Java网络爬虫系统性学习与实战系列

5.网络爬虫——Xpath解析

Xpath语法-爬虫

Python爬虫(十三)_案例:使用XPath的爬虫