Xpath 提取html整个元素(标签与内容)

Posted 右介

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Xpath 提取html整个元素(标签与内容)相关的知识,希望对你有一定的参考价值。

提取html某标签中文字时,文字中含有:“<sub>2</sub>O<sub>5</sub>”,导致提取的文字不符合预期。

解决方法:

#coding=utf-8
from lxml import etree
from HTMLParser import HTMLParser

html = u‘‘‘
<html>
    <span id="chTitle">退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响</span>
</html>
‘‘‘

tree = etree.HTML(html)

# 结果为:退火对Nb
content1 = tree.xpath("//span[@id=‘chTitle‘]/text()")[0]
print content1

# 结果为:退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响
table = tree.xpath("//span[@id=‘chTitle‘]")[0]
content2 = etree.tostring(table, method=html)
print HTMLParser().unescape(content2)[19:-8]

 

以上是关于Xpath 提取html整个元素(标签与内容)的主要内容,如果未能解决你的问题,请参考以下文章

我想使用 XPath 和 PHP 将节点的内容提取为字符串

如何使用nodejs模块使用xpath提取html内容

Python怎样获取XPath下的A标签的内容

python里的爬虫如何使用xpath 提取script里的元素?

xpath提取多个标签下的text

使用xpath提取页面所有a标签的href属性值