解析 HTML 源代码以获取没有错误的图像的 url。 (首选 Python)[关闭]

Posted

技术标签:

【中文标题】解析 HTML 源代码以获取没有错误的图像的 url。 (首选 Python)[关闭]【英文标题】:Parsing HTML source code to get url's of images without errors. (Python preferred) [closed] 【发布时间】:2012-07-11 04:30:41 【问题描述】:

我制作了一个 wordpress 插件,它将博客帖子作为帖子数据发送,以便我可以保存网页。我使用以下查询从博客中获取数据:

select * from $wpdb->posts 

上面这行并不重要,只是提到它是为了告诉你我是如何获取博客数据的。

数据包含 html 标记。我需要解析 HTML 以获取图像的 URL。获得 URL 后,我就知道如何从 URL 下载图像。我想知道一种解析 HTML 标记以获取图像 URL 且没有任何错误的好方法。

python 是首选语言。

【问题讨论】:

code.google.com/p/html5lib 【参考方案1】:

有几个 python 模块可以为你做这件事:

美汤 lxml.html html5lib

例如,

import BeautifulSoup

html = """
  <html><body>
    <h1>My html!</h1>
    <img src="yourimage1.jpg" />
    <img src="yourimage1.jpg" />
  </body></html>
"""

bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]

结果为@​​987654322@

【讨论】:

很好的答案,非常感谢您的回答。我手动解析了一些对一些有效而对另一些无效,所以在这里发布了问题,幸运的是得到了你的回答。非常感谢!

以上是关于解析 HTML 源代码以获取没有错误的图像的 url。 (首选 Python)[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

使用 C# 解析 HTML 以获取内容

上传 JPG 图像以解析服务器失败

尝试通过 JSON 解析以在应用程序中显示图像

android中的JSON解析和获取图像

如何在 js 中将图像 URI 组合成 gif?

解析 SDK 以获取推送通知、编译错误