在大型句子数据集中找到最相似的句子

Posted

技术标签:

【中文标题】在大型句子数据集中找到最相似的句子【英文标题】:Find most similar sentence in a large dataset of sentences 【发布时间】:2021-11-15 07:51:56 【问题描述】:

我目前有一个包含大约一百万个句子的文本文件,每个句子都换行。 我正在尝试构建一个解决方案,我可以在该文本文件之外使用一个新句子,并让程序返回文件中存在的最相似的句子。

我找到了一些解决方案,它们返回现有数据集内相似度最高的句子对。例如this one。但这不是我想要的。我希望能够将一个新句子与文本文件中的所有句子进行比较。

另外,我不确定我应该关注语义相似度还是余弦相似度。

【问题讨论】:

如何定义“最相似”? 【参考方案1】:

我建议您阅读有关Damerau–Levenshtein distance 的信息。 我也在寻找类似的解决方案,并选择了这个算法。

有 Python 的实现:

fastDamerauLevenshtein pyxDamerauLevenshtein

【讨论】:

感谢您的回答,这将是我正在寻找的方向!

以上是关于在大型句子数据集中找到最相似的句子的主要内容,如果未能解决你的问题,请参考以下文章

如何抓取语义相似的句子

用于多句子文本相似度的通用句子编码器

识别句子中单词的上下文

论文泛读85基于上下文的句子相似度

为大型数据集生成 ngram 频率

英文句子相似性判断