NLP语言模型

Posted coeus-p

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP语言模型相关的知识,希望对你有一定的参考价值。



语言模型:

I. 基本思想
区别于其他大多数检索模型从查询到文档(即给定用户查询,如何找出相关的文档),
语言模型由文档到查询,即为每个文档建立不同的语言模型,判断由文档生成用户查
询的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。

II. 生成查询概率
为每个文档建立一个语言模型,语言模型代表了单词(或单词序列)在文档中的分布情
况。针对查询中的单词,每个单词都有一个抽取概率,将这些单词的抽取概率相乘就是文
档生成查询的概率。

III. 存在问题

由于一个文档文字内容有限,所以很多查询词都未在文中出现过,生成概率为0,会导致
查询整体的生成概率为0,这被称为语言模型的数据稀疏问题,是语言模型方法重点需要解决的问题。

IV. 解决方案

一般采用数据平滑方式解决数据稀疏问题。语言模型检索方法则是为所有单词引入一个背
景概率做数据平滑。











以上是关于NLP语言模型的主要内容,如果未能解决你的问题,请参考以下文章

NLP语言模型任务数据准备及实战

NLP预训练语言模型(三):逐步解析Transformer结构

NLP经典案例Transformer 构建语言模型

NLP经典案例Transformer 构建语言模型

NLP自然语言常见问题及相关模型训练数据格式示例

自然语言处理NLP之语义相似度语言模型doc2vec