在大型句子数据集中找到最相似的句子
Posted
技术标签:
【中文标题】在大型句子数据集中找到最相似的句子【英文标题】:Find most similar sentence in a large dataset of sentences 【发布时间】:2021-11-15 07:51:56 【问题描述】:我目前有一个包含大约一百万个句子的文本文件,每个句子都换行。 我正在尝试构建一个解决方案,我可以在该文本文件之外使用一个新句子,并让程序返回文件中存在的最相似的句子。
我找到了一些解决方案,它们返回现有数据集内相似度最高的句子对。例如this one。但这不是我想要的。我希望能够将一个新句子与文本文件中的所有句子进行比较。
另外,我不确定我应该关注语义相似度还是余弦相似度。
【问题讨论】:
如何定义“最相似”? 【参考方案1】:我建议您阅读有关Damerau–Levenshtein distance 的信息。 我也在寻找类似的解决方案,并选择了这个算法。
有 Python 的实现:
fastDamerauLevenshtein pyxDamerauLevenshtein【讨论】:
感谢您的回答,这将是我正在寻找的方向!以上是关于在大型句子数据集中找到最相似的句子的主要内容,如果未能解决你的问题,请参考以下文章