python HTML解析之 - lxml

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python HTML解析之 - lxml相关的知识,希望对你有一定的参考价值。

参考技术A

lxml是处理XML和html的python语言,解析的时候,自动处理各种编码问题。而且它天生支持 XPath 1.0、XSLT 1.0、定制元素类。
安装:

HTML 实例

test, test.html指上述实例

获取 a 的所有标签, 这种html内容有多种写法,可以 直接得到了4个元素。

按照(2)中的方法,再加上 /@href ,可以直接得到属性值。

或者得到(2)中的结果,一一轮询。

更多表达式见 python xpath的学习
参考: https://www.jianshu.com/p/2ae6d51522c3

以上是关于python HTML解析之 - lxml的主要内容,如果未能解决你的问题,请参考以下文章

python学习(25) BeautifulSoup介绍和实战

BeautifulSoup库

python中的BeautifulSoup使用小结

011 Python 爬虫库安装简单使用

BeautifulSoup4

python爬虫之html解析Beautifulsoup和Xpath