将 lxml 与美丽的汤一起使用

Posted

技术标签:

【中文标题】将 lxml 与美丽的汤一起使用【英文标题】:using lxml with beautiful soup 【发布时间】:2013-06-19 03:11:36 【问题描述】:

我无法让 lxml 与漂亮的汤一起使用。在 osx 10.8.4 上运行。要安装 lxml,我做了端口安装 py25-lxml,它安装得很好。现在,当我尝试将 lxml 与 Beautiful Soup 一起使用时出现此错误:

Traceback (most recent call last):
  File "********.py", line 13, in <module>
    soup = BeautifulSoup(urllib2.urlopen(url).read(), 'lxml')
  File "/Users/********/********/bs4/__init__.py", line 155, in __init__
    % ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml.
Do you need to install a parser library?

不确定这是否是问题的一部分,但我无法导入 lxml.etree

有没有其他人让 lxml 在 osx 上处理漂亮的汤?

另外,也许我可以尝试使用不同的 html 解析器。有人对其他解析器有建议吗?

【问题讨论】:

如果我没记错的话,我必须在我的 Mac 上手动下载 lxml 才能正常工作。试试这个 【参考方案1】:

来自lxml网站:

如果失败,请尝试自己构建 http://lxml.de/build.html#building-lxml-on-macos-x

这可能行不通,所以不要依赖它

否则还有其他解析器,例如 lxml.html(应该与 lxml 一起使用)和其他一些我不确定的解析器。

【讨论】:

以上是关于将 lxml 与美丽的汤一起使用的主要内容,如果未能解决你的问题,请参考以下文章

美丽的汤在源文件中找到标记的位置?

将 XPath 转换为美丽的汤

如何将 CSS Selector 的输出传递给美丽的汤?

美丽的汤和提取价值

美丽的汤正则表达式

美丽的汤 CSS 选择器没有找到任何东西