在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合啥样的目的?
Posted
技术标签:
【中文标题】在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合啥样的目的?【英文标题】:Parsing HTML in python - lxml or BeautifulSoup? Which of these is better for what kinds of purposes?在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合什么样的目的? 【发布时间】:2010-12-27 16:19:31 【问题描述】:据我所知,Python 中的两个主要 html 解析库是 lxml 和 BeautifulSoup。我为我正在进行的项目选择了 BeautifulSoup,但我选择它并没有什么特别的原因,只是觉得语法更容易学习和理解。但是我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快。
所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候使用 BeautifulSoup 更好?还有其他值得考虑的库吗?
【问题讨论】:
BeautifulSoup and lxml.html - what to prefer? 的可能重复我写了一个detailed answer;因为问题重复所以在这里转贴。 对不起,我的意思是关闭另一个。现在标记另一个。我认为在哪里升旗并不重要,在旧的还是在新的。 【参考方案1】:我肯定会使用 EHP。它比 lxml 更快,更优雅,更易于使用。
退房。 https://github.com/iogf/ehp
<body ><em > foo <font color="red" ></font></em></body>
from ehp import *
data = '''<html> <body> <em> Hello world. </em> </body> </html>'''
html = Html()
dom = html.feed(data)
for ind in dom.find('em'):
print ind.text()
输出:
Hello world.
【讨论】:
【参考方案2】:Pyquery
为 Python 提供了 jQuery 选择器接口(在底层使用 lxml)。
http://pypi.python.org/pypi/pyquery
真的太棒了,其他的我都不用了。
【讨论】:
我一直想试试这个库。看起来很有趣。 这比 bs4 好用。我在使用 bs4 时遇到了一些问题,diagnose
甚至无法正常工作:(【参考方案3】:
总而言之,lxml
被定位为闪电般快速的生产质量 html 和 xml 解析器,顺便说一下,它还包括一个 soupparser
模块以依赖 BeautifulSoup 的功能。 BeautifulSoup
是一个单人项目,旨在节省您从格式不佳的 html 或 xml 中快速提取数据的时间。
lxml documentation 表示两种解析器都有优点和缺点。出于这个原因,lxml
提供了一个soupparser
,因此您可以来回切换。引用,
BeautifulSoup 使用不同的解析方法。它不是真正的 HTML 解析器,但使用正则表达式来浏览标签汤。它是 因此在某些情况下更宽容,而在其他情况下则不太好。它是 lxml/libxml2 更好地解析和修复损坏的 HTML 并不少见, 但是 BeautifulSoup 对编码检测有卓越的支持。 它 很大程度上取决于哪个解析器工作得更好。
最后他们说,
使用这个解析器的缺点是它慢得多 lxml 的 HTML 解析器。 因此,如果性能很重要,您可能需要 考虑仅在某些情况下将 soupparser 用作后备。
如果我理解正确,这意味着汤解析器更强大——它可以通过使用正则表达式来处理格式错误的标签的“汤”——而lxml
更简单,只解析事物并按照您的预期构建一棵树。我认为它也适用于BeautifulSoup
本身,而不仅仅是lxml
的soupparser
。
他们还展示了如何从BeautifulSoup
的编码检测中受益,同时仍然使用lxml
快速解析:
>>> from BeautifulSoup import UnicodeDammit
>>> def decode_html(html_string):
... converted = UnicodeDammit(html_string, isHTML=True)
... if not converted.unicode:
... raise UnicodeDecodeError(
... "Failed to detect encoding, tried [%s]",
... ', '.join(converted.triedEncodings))
... # print converted.originalEncoding
... return converted.unicode
>>> root = lxml.html.fromstring(decode_html(tag_soup))
(同一来源:http://lxml.de/elementsoup.html)。
用BeautifulSoup
的创建者的话来说,
就是这样!玩得开心!我写了美丽的汤来节省大家的时间。 一旦你习惯了它,你应该能够把数据从 设计不佳的网站只需几分钟。如果你给我发电子邮件 有任何 cmets,遇到问题,或希望我了解您的 使用 Beautiful Soup 的项目。
--Leonard
引自Beautiful Soup documentation。
我希望现在已经清楚了。 The soup 是一个出色的单人项目,旨在节省您从设计不佳的网站中提取数据的时间。目标是立即为您节省时间,完成工作,不一定是为了长期节省时间,也绝对不是为了优化软件的性能。
另外,来自lxml website,
lxml 已经从 Python Package Index 下载了两个以上 百万次,也可直接以多种包装形式提供 分布,例如适用于 Linux 或 MacOS-X。
还有,来自Why lxml?,
C 库 libxml2 和 libxslt 具有巨大的优势:... 符合标准...功能齐全...速度快。快速地!快速地! ... lxml 是 libxml2 和 libxslt 的新 Python 绑定...
【讨论】:
【参考方案4】:不要使用 BeautifulSoup,使用 lxml.soupparser 那么你就坐在lxml 的强大功能之上,可以使用BeautifulSoup 的优点来处理非常破碎和蹩脚的HTML。
【讨论】:
我知道这是很久以前发布的,但这仍然有效吗?像2009年那样工作吗? :D【参考方案5】:可以找到一个有点过时的速度比较here,它明确推荐lxml,因为速度差异似乎很大。
【讨论】:
【参考方案6】:对于初学者,BeautifulSoup 不再积极维护,the author even recommends alternatives 如 lxml。
引用链接页面:
Beautiful Soup 3.1.0 版可以 在现实世界的 HTML 上明显更糟 比 3.0.8 版本。最多 常见问题正在处理 标签错误,“错误的开始 tag”错误和“bad end tag”错误。 这个页面解释了发生了什么,如何 问题将得到解决,并且 你现在可以做什么。
这个页面最初是写在 2009 年 3 月。此后,3.2 系列 已发布,替换 3.1 系列,以及 4.x 的开发 系列已经开始。这一页 将保持历史 目的。
tl;dr
改用 3.2.0。
【讨论】:
+1 不知道 BeautifulSoup 的衰败,我依赖和崇拜它。 恕我直言,这是一种误导 - 仔细阅读该页面会发现lxml
只是有问题的 3.1.0 版本的替代品,其问题已在 3.2.0 中修复,现在甚至第 4 版即将在 2 个月前发布 - 因此该模块几乎“不再积极维护”。 请修改答案
很高兴看到 BeautifulSoup 再次得到维护。 3.2.0 于 2010 年 11 月发布——在这个答案之后将近一年.. :)
我怀疑这是否应该是今天公认的答案。这里的一切都是几乎无用的信息(怀旧/历史目的除外)。
当我读到这篇文章时,我以为 bs4 已经死了。发现“改用 3.2.0”后松了一口气。【参考方案7】:
我使用 lxml 解析 HTML 取得了巨大成功。它似乎也可以很好地处理“soupy” HTML。我强烈推荐它。
这是我为了尝试处理一些丑陋的 HTML 而进行的快速测试:
import unittest
from StringIO import StringIO
from lxml import etree
class TestLxmlStuff(unittest.TestCase):
bad_html = """
<html>
<head><title>Test!</title></head>
<body>
<h1>Here's a heading
<p>Here's some text
<p>And some more text
<b>Bold!</b></i>
<table>
<tr>row
<tr><td>test1
<td>test2
</tr>
<tr>
<td colspan=2>spanning two
</table>
</body>
</html>"""
def test_soup(self):
"""Test lxml's parsing of really bad HTML"""
parser = etree.HTMLParser()
tree = etree.parse(StringIO(self.bad_html), parser)
self.assertEqual(len(tree.xpath('//tr')), 3)
self.assertEqual(len(tree.xpath('//td')), 3)
self.assertEqual(len(tree.xpath('//i')), 0)
#print(etree.tostring(tree.getroot(), pretty_print=False, method="html"))
if __name__ == '__main__':
unittest.main()
【讨论】:
以上是关于在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合啥样的目的?的主要内容,如果未能解决你的问题,请参考以下文章
lxml 和 libxml2 哪个更适合在 Python 中解析格式错误的 html?