从全文搜索结果中提取小的相关位文本（如 Google 所做的那样）

Posted 2023-03-12

技术标签:

【中文标题】从全文搜索结果中提取小的相关位文本（如 Google 所做的那样）【英文标题】：Extract small relevant bits text (as Google does) from the full text search results 【发布时间】：2010-10-31 13:27:09 【问题描述】：

我在一个论坛数据库中实现了全文搜索，我想显示以谷歌的方式搜索结果。即使对于一个很长的 html 页面也只有两三个搜索结果列表中显示的文本行。通常这些是行其中包含一个搜索词。

如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想出一些简单的方法，比如在文本中出现搜索词之前使用一行文本，然后在之后使用一行——但这似乎太简单了。

想了解一些方向、想法和见解。

谢谢。

【问题讨论】：

添加了自然语言处理 (nlp) 标签 【参考方案1】：

专注于内容的开头。想想当你访问博客时你会看哪里。开头的段落告诉你文章的方向是否正确。所以在你的算法中反映这一点是有意义的。

检查搜索词在标题（H1、H2 等）中的出现情况并给予它们更高的优先级。

这应该让你开始。

【讨论】：

【参考方案2】：

如果您正在寻找比“前/后行”方法更高级的东西，摘要器可能会解决问题。