使用 Python 检索类似 Facebook 的链接摘要（标题、摘要、相关图像）

Posted 2023-02-15

技术标签:

【中文标题】使用 Python 检索类似 Facebook 的链接摘要（标题、摘要、相关图像）【英文标题】：Retrieving Facebook-like link summaries (title, summary, relevant images) using Python 【发布时间】：2011-03-18 22:46:20 【问题描述】：

我想复制 Facebook 用来解析链接的功能。当您提交指向您的 Facebook 状态的链接时，他们的系统会退出并从该页面检索建议的 title、summary 以及一个或多个相关的 images，您可以从中选择缩略图。

我的应用程序需要使用 Python 完成此任务，但我愿意接受与此相关的任何类型的指南、博客文章或其他开发人员的经验，并且可能会帮助我弄清楚如何完成它。

在加入之前，我真的很想学习其他人的经验。

明确地说，当给定网页的 URL 时，我希望能够检索：

<title>

<h1>

我可能必须自己实现它，但我至少想知道其他人是如何完成这些任务的。

【问题讨论】：

【参考方案1】：

BeautifulSoup 非常适合完成大部分工作。

基本上，您只需初始化soup 对象，然后执行以下操作来提取您感兴趣的内容：

title = soup.findAll('title')
images = soup.findAll('img')

然后，您可以使用urllib2，根据url 下载每个图像。

标题相当简单，但图片可能有点困难，因为您必须下载每张图片才能获得相关统计信息。也许您可以根据大小和颜色数量过滤掉大部分图像？例如，圆角会很小，通常只有 1-2 种颜色。

至于页面摘要，这可能有点困难，但我一直在做这样的事情：

html

.findAll

.extract

.join(soup.findAll(text = True))

在您的应用程序中，也许您可以使用此"text" 内容作为页面摘要？

我希望这会有所帮助。

【讨论】：

BeautifulSoup 在 Python 3.1 上没有得到很好的支持，它的原作者也没有做太多的开发了。您可能最好使用 lxml.html 和/或 html5lib（BeautifulSoup 作者推荐后者）。很高兴知道以供将来参考。谢谢！【参考方案2】：

这里有一个完整的解决方案：https://github.com/svven/summary

>>> import summary
>>> s = summary.Summary('http://***.com/users/76701/ram-rachum')
>>> s.extract()
>>> s.title
u'User Ram Rachum - Stack Overflow'
>>> s.description
u'Israeli Python hacker.'
>>> s.image
https://www.gravatar.com/avatar/d24c45635a5171615a7cdb936f36daad?s=128&d=identic
on&r=PG
>>>

【讨论】：

很遗憾，这个项目不支持 Python 3。

以上是关于使用 Python 检索类似 Facebook 的链接摘要（标题、摘要、相关图像）的主要内容，如果未能解决你的问题，请参考以下文章