python的lxml模块
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python的lxml模块相关的知识,希望对你有一定的参考价值。
环境:python2.7
安装lxml模块
pip install lxml
例子:
from lxml import etree text = ‘‘‘ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ‘‘‘ html = etree.HTML(text) #这是一个地址 result = etree.tostring(html) #读出来源码,并且补全,如输出的《body》标签 print(result)
输出:
<html> <body> <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> </body> </html>
#读取文件里的内容 from lxml import etree html = etree.parse(‘hello.html‘) result = etree.tostring(html, pretty_print=True) print(result)
获取li标签里的东西
html = etree.parse(‘hello.html‘) print type(html) result = html.xpath(‘//li‘) print result print len(result) print type(result) print type(result[0]) |
参考文章:http://cuiqingcai.com/2621.html
说明:此篇博客仅仅是为了自己学习lxml模块,故没好好写,下面是我微信二维码
本文出自 “天道酬勤” 博客,谢绝转载!
以上是关于python的lxml模块的主要内容,如果未能解决你的问题,请参考以下文章
将 python 脚本转换为使用 lxml 的 etree 模块的 linux 二进制文件的问题