lxml模块(应用xpath技术)

Posted xiugeng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lxml模块(应用xpath技术)相关的知识,希望对你有一定的参考价值。

一、lxml介绍

  第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供了主要动力,是爬虫处理网页数据的一件利器。
  lxml对xml和html都有很好的支持,分别使用 lxml.etree 和 lxml.html 两个模块。

1、安装第三方lxml模块

# 通过pip直接下载安装
pip install lxml

# 通过git克隆源码进行下载安装
git clone https://github.com/lxml/lxml.git   lxml

2、lxml.html和lxml.etree模块

  lxml.html&lxml.etree这两个模块是最常用的HTML文档和XML文档解析模块。

  HTML(HyperText Markup Language)超文本标记语言。

  XML(Extensible Markup Language)可扩展标记语言。

3、lxml官方文档

  lxml

二、Xpath语法

1、选取节点

  Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。常用的路径表达式如下:

  

  下面为一些路径表达式及表达式结果:

  

2、谓语(Predicates)
  谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

  下面为一些带有谓语的路径表达式,及表达式结果:

以上是关于lxml模块(应用xpath技术)的主要内容,如果未能解决你的问题,请参考以下文章

关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup

Python爬虫基础——XPath语法的学习与lxml模块的使用

第64天: XPath 和 lxml

第64天: XPath 和 lxml

Python解析库lxml与xpath用法总结

快速入门 Python 爬虫常用解析库(xpathbs4)