文本相似度-bm25算法原理及实现

Posted 2023-04-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本相似度-bm25算法原理及实现相关的知识，希望对你有一定的参考价值。

参考技术A

BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。
BM25算法的一般性公式如下：

其中，Q表示Query，qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素分析，每个词看成语素qi。）；d表示一个搜索结果文档；Wi表示 语素qi的权重 ；R(qi，d)表示 语素qi与文档d的相关性得分 。

下面我们来看如何定义。判断 一个词的权重 ，方法有多种，较常用的是IDF。这里以IDF为例，公式如下：

其中，N为索引中的 全部文档数 ，n(qi)为 包含了qi的文档数。
根据IDF的定义可以看出，对于给定的文档集合， 包含了qi的文档数越多，qi的权重则越低 。也就是说，当很多文档都包含了qi时，qi的区分度就不高，因此使用qi来判断相关性时的重要度就较低。
我们再来看语素qi与文档d的相关性得分。首先来看BM25中相关性得分的一般形式：

其中，k1，k2，b为 调节因子 ，通常根据经验设置，一般k1=2，k2=1，b=0.75；fi为 qi在d中的出现频率 ，qfi为 qi在Query中的出现频率 。dl为 文档d的长度 ，avgdl为 所有文档的平均长度 。由于绝大部分情况下，qi在Query中只会出现一次， 即qfi=1 ，因此公式可以简化为：

从K的定义中可以看到，参数b的作用是 调整文档长度对相关性影响的大小 。 b越大，文档长度的对相关性得分的影响越大 ，反之越小。而 文档的相对长度越长，K值将越大，则相关性得分会越小 。这可以理解为，当文档较长时，包含qi的机会越大，因此，同等fi的情况下，长文档与qi的相关性应该比短文档与qi的相关性弱。
综上，BM25算法的相关性得分公式可总结为：

分段再分词结果

列表的每一个元素是一个dict，dict存储着 一个文档中每个词的出现次数

存储每个词的idf值

[\'自然语言\', \'计算机科学\', \'领域\', \'人工智能\', \'领域\']与每一句的相似度

https://github.com/jllan/jannlp/blob/master/similarity/bm25.py

ElasticSearch实战-TF/IDF/BM25分值计算（文本搜索排序分值计算，全文检索算法，文本相似度算法）

一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。 -----《TF-IDF 百度百科》

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

BM25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。

搜索结果排序时搜索引擎最核心的部分，很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多，但最主要的两个因素是用户查询和网页内容的相关度，以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。

判断网页内容是否与用户査询相关，这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础，为量化相关性提供了一种数学模型，是对查询词和文档之间进行相似度计算的框架和方法。其本质就是相关度建模。如图所示，检索模型所在搜索引擎系统架构位置：

当然检索模型理论研究存在理想化的隐含假设，及即假设用户需求已经通过查询非常清晰明确地表达出来了，

以上是关于文本相似度-bm25算法原理及实现的主要内容，如果未能解决你的问题，请参考以下文章

ElasticSearch实战-TF/IDF/BM25分值计算（文本搜索排序分值计算，全文检索算法，文本相似度算法）