如何以编程方式为 URL 数据库生成相关标签?

Posted

技术标签:

【中文标题】如何以编程方式为 URL 数据库生成相关标签?【英文标题】:How can I programmatically generate relevant tags for a database of URLs? 【发布时间】:2011-01-17 05:28:45 【问题描述】:

我正在用 python 编写一个 RSS 阅读器作为学习练习,我真的希望能够使用关键字标记单个条目以进行搜索。不幸的是,大多数现实世界的提要不包括关键字元数据。目前,我的测试数据库中有大约 60,000 个条目来自大约 600 个提要,因此手动标记不会有效。到目前为止,我只能找到两个解决方案:

1:使用Natural Language Toolkit提取关键字:

优点:灵活;不依赖外部服务; 缺点:只能索引文章摘要,不能索引文章;不平凡:编写高质量的关键字提取工具本身就是一个项目;

2:使用Google Adwords API从文章网址获取关键词建议:

优点:超高质量关键词;基于整篇文章;易于使用; 缺点:不是免费的(?);查询速率限制未知;我很害怕自己的帐户被禁止并且无法为我的商业网站投放 adwords 广告系列;

任何人都可以提供任何建议吗?我担心我的 adwords 帐户被禁止是没有根据的吗?

【问题讨论】:

只是跟进:我最终使用了 python-calais,它有点陈旧(最后一次更新是在 2009 年),但到目前为止运行良好。它有一个方便的函数,它以 url 作为参数并返回解析为 python dict 的 calais 响应。我对所提供元数据的准确性和相关性印象深刻,尤其是考虑到成本(免费)。 【参考方案1】:

根据您的具体需求,您可以考虑使用许多免费和商业的文本注释工具/服务,如下所列:

Is there a better tool than OpenCalais?。

其中一些提供实体,一些提供关键字相关性的度量,还有一些提供主题标签。

【讨论】:

【参考方案2】:

您可以使用delicious suggested tags API

通过pythonhttp://www.michael-noll.com/projects/delicious-python-api/使用api的示例

另一种选择是 Open Calais

【讨论】:

我不知道 Open Calais,这看起来很棒。我有一种感觉,这将催生很多新项目。 :)

以上是关于如何以编程方式为 URL 数据库生成相关标签?的主要内容,如果未能解决你的问题,请参考以下文章

如何以编程方式访问 SIM 卡?

如何以编程方式为 Django 中的给定模型生成 CREATE TABLE SQL 语句?

如何以编程方式将标签插入woocommerce产品

如何以编程方式绑定 Nuxt/Vue 中的视频播放器 URL?

如何以编程方式填充核心数据存储,为每条记录生成索引

如何在运行时以编程方式从本地数据库获取连接字符串?时间:2019-06-01 标签:c#winforms