常见统计模型

Posted lqysfu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见统计模型相关的知识,希望对你有一定的参考价值。

统计语言模型

抽取概率:在一个文档DOC中随机抽取了一个词Word,被抽中的概率。

用户搜索W1、W2,W1在Doc1中的抽取概率为1%,W2的抽取概率为2%,则本次搜索中,Doc1的相关性的分为1%*2%,依次可以计算出所有文档的相关性得分,并按相关性对搜索结果进行排序。?

特点:与BM25效果相当,但需要使用大量文档语料库来训练,语料库最好与使用场景比较相似。

布尔模型

苹果 AND 公司:表示既包含“苹果”,有包含“公司”,这两个词的文档。
苹果 OR 公司:表示搜索包含“苹果”或者“公司”这两个词中任意一个的文档。
特点:简单粗暴。

BIM模型

BIM:按照文档中含有关键词的数量和词在文档中出现的频率,确定权重。
BM25:在BIM的基础上增加了:

  1. 搜索词在文档中的权重。
  2. 搜索词本身的权重。

BM25F:在BM25的基础上增加了考虑文档中不同字段的权重。
BM25F是最常见的商业模型。

以上是关于常见统计模型的主要内容,如果未能解决你的问题,请参考以下文章

Alfred常见使用

mAP的代码实现及分析

c_cpp 快速代码片段,用于在统计(阻止)/ dev / rdsk中的设备时验证fstat64和stat64的行为。

干货通俗理解自然语言处理中N-Gram模型

常用GWAS统计方法和模型简介

机器学习3_EM算法与混合高斯模型