聚类搜索短语

Posted

技术标签:

【中文标题】聚类搜索短语【英文标题】:Clustering search phrases 【发布时间】:2012-10-29 08:18:12 【问题描述】:

我正在解决这个问题,我需要根据他们正在寻找的内容对搜索词组进行聚类(现在,我们假设他们只在寻找地方,例如书店、超市等)

“我在哪里可以找到芝士蛋糕?” 可以概率地聚集到“甜点”、“餐厅”……

“我在哪里可以买到杂货?” 可以概率性地聚集到“超市”、“蔬菜”……

假设一开始,一组搜索短语可以归类到的内容已经存在。

我研究了主题建模,但我觉得我可能走错了方向。关于如何开始/研究什么的任何建议都会非常有帮助。

非常感谢。

【问题讨论】:

这看起来像query rewriting。 slideshare.net/lundjohnson/2011-07-27-bay-area-search 你有什么样的数据可用? 【参考方案1】:

主题建模当然提供了一种可能的解决方案。从大型语料库中归纳出一个主题模型,尽可能代表您正在索引和搜索的文本。然后将每个查询表示为给定查询的主题的后验。如果您想获得查询集群,则可以在这个缩减集上执行此操作,或者如果您正在执行 IR,您可以使用结果向量而不是原始词袋。

如果这不是您想要的,您能详细说明问题吗?您希望如何处理集群查询?

【讨论】:

以上是关于聚类搜索短语的主要内容,如果未能解决你的问题,请参考以下文章

Visual C++ 中区分大小写的短语搜索

确切的短语在 mongodb 全文搜索中无法正常工作

Eclipse 如何对短语/正则表达式的命中执行如此快速的搜索

返回全文搜索中找到的短语的周围文本,SQL 2005

如何在句子中间搜索单词或短语? [复制]

解析短语和关键字的搜索字符串