堆栈溢出相关问题算法[关闭]

Posted 2023-02-23

技术标签:

【中文标题】堆栈溢出相关问题算法[关闭]【英文标题】：Stack Overflow Related questions algorithm [closed] 【发布时间】：2010-10-27 20:47:25 【问题描述】：

输入标题后出现的相关问题，以及查看问题时右侧栏中的问题似乎都在暗示非常贴切的问题。

Spolsky 在一次演讲中说，Stack Overflow 只对其进行 SQL 搜索，不使用特殊算法。

存在哪些算法可以在这种情况下给出好的答案。在这种情况下如何进行数据库搜索？使标题可搜索并搜索关键字或搜索标签和那些在顶部有很多投票的问题？

【问题讨论】：

【参考方案1】：

如果您收听 Stack Overflow podcast 32（不幸的是，成绩单并没有太多内容），您可以听到 Jeff Atwood 讲述了他是如何做到的。

算法好像是这样的：

回答问题删除最常用的英语单词（从他从 google 获得的列表中）向 SQL Server 2008 全文搜索引擎提交全文搜索

关于全文搜索的更多细节可以在这里找到：http://msdn.microsoft.com/en-us/library/ms142571.aspx

现在这可能已经过时了 - 他们正在讨论转向更好/更快的全文搜索，例如 Lucene，我隐约记得 Jeff 在播客中说这已经完成了。

【讨论】：

【参考方案2】：

相关问题侧边栏将建立在每个问题的标签上（可能是根据标签重叠对它们进行排名，因此共有 5 个标签 > 共有 4 个标签等）。

其余部分将建立在适用于自然语言处理的启发式和算法之上。这些在通用语言中通常不是很好，但是一旦将词汇减少到编程等单一技术领域，它们中的大多数都非常好。

【讨论】：

标签重叠可能不是唯一涉及的东西；因为这个问题的最相关问题与这个问题没有共同的标签。:) 最上面的问题（有没有算法告诉你...）有标签nlp，和这个问题一样还有另外两个标签。下面的一个有 nlp 和 4 个其他标签。 #3 有 nlp、4 个其他标签，并且比 #2 更少的支持。不过还有一些别的东西，因为 #4 有 nlp、3 个其他标签和比 #3 更多的赞成票，所以可能对标题也进行了一些处理 :)【参考方案3】：

如果您想了解“相关”算法，请查看 Porter stemming for a stemming 算法。