如何以编程方式为 URL 数据库生成相关标签?
Posted
技术标签:
【中文标题】如何以编程方式为 URL 数据库生成相关标签?【英文标题】:How can I programmatically generate relevant tags for a database of URLs? 【发布时间】:2011-01-17 05:28:45 【问题描述】:我正在用 python 编写一个 RSS 阅读器作为学习练习,我真的希望能够使用关键字标记单个条目以进行搜索。不幸的是,大多数现实世界的提要不包括关键字元数据。目前,我的测试数据库中有大约 60,000 个条目来自大约 600 个提要,因此手动标记不会有效。到目前为止,我只能找到两个解决方案:
1:使用Natural Language Toolkit提取关键字:
优点:灵活;不依赖外部服务; 缺点:只能索引文章摘要,不能索引文章;不平凡:编写高质量的关键字提取工具本身就是一个项目;2:使用Google Adwords API从文章网址获取关键词建议:
优点:超高质量关键词;基于整篇文章;易于使用; 缺点:不是免费的(?);查询速率限制未知;我很害怕自己的帐户被禁止并且无法为我的商业网站投放 adwords 广告系列;任何人都可以提供任何建议吗?我担心我的 adwords 帐户被禁止是没有根据的吗?
【问题讨论】:
只是跟进:我最终使用了 python-calais,它有点陈旧(最后一次更新是在 2009 年),但到目前为止运行良好。它有一个方便的函数,它以 url 作为参数并返回解析为 python dict 的 calais 响应。我对所提供元数据的准确性和相关性印象深刻,尤其是考虑到成本(免费)。 【参考方案1】:根据您的具体需求,您可以考虑使用许多免费和商业的文本注释工具/服务,如下所列:
Is there a better tool than OpenCalais?。
其中一些提供实体,一些提供关键字相关性的度量,还有一些提供主题标签。
【讨论】:
【参考方案2】:您可以使用delicious suggested tags API。
通过pythonhttp://www.michael-noll.com/projects/delicious-python-api/使用api的示例
另一种选择是 Open Calais
【讨论】:
我不知道 Open Calais,这看起来很棒。我有一种感觉,这将催生很多新项目。 :)以上是关于如何以编程方式为 URL 数据库生成相关标签?的主要内容,如果未能解决你的问题,请参考以下文章
如何以编程方式为 Django 中的给定模型生成 CREATE TABLE SQL 语句?