python的lxml模块

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python的lxml模块相关的知识,希望对你有一定的参考价值。

环境:python2.7

安装lxml模块

pip install lxml

例子:

from lxml import etree
text = ‘‘‘
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
‘‘‘
html = etree.HTML(text)  #这是一个地址
result = etree.tostring(html) #读出来源码,并且补全,如输出的《body》标签
print(result)

输出:

<html>
    <body>
        <div> 
           <ul>  
          <li class="item-0"><a href="link1.html">first item</a></li>
          <li class="item-1"><a href="link2.html">second item</a></li>
          <li class="item-inactive"><a href="link3.html">third item</a></li>         
          <li class="item-1"><a href="link4.html">fourth item</a></li>         
          <li class="item-0"><a href="link5.html">fifth item</a></li>
          </ul> 
          </div> 
        </body>
  </html>
#读取文件里的内容
from lxml import etree
html = etree.parse(‘hello.html‘)
result = etree.tostring(html, pretty_print=True)
print(result)


获取li标签里的东西

html = etree.parse(‘hello.html‘)

print type(html)

result = html.xpath(‘//li‘)

print result

print len(result)

print type(result)

print type(result[0])


参考文章:http://cuiqingcai.com/2621.html

说明:此篇博客仅仅是为了自己学习lxml模块,故没好好写,下面是我微信二维码


技术分享

本文出自 “天道酬勤” 博客,谢绝转载!

以上是关于python的lxml模块的主要内容,如果未能解决你的问题,请参考以下文章

将 python 脚本转换为使用 lxml 的 etree 模块的 linux 二进制文件的问题

python模块--BeautifulSoup4 和 lxml

Python 之lxml解析模块

python3爬虫lxml模块的安装

windows下使用pip安装python模块lxml

学习笔记Python - Lxml