论文｜万物皆可Vector之语言模型：从N-Gram到NNLMRNNLM

Posted 2022-08-01 搜索与推荐Wiki

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文｜万物皆可Vector之语言模型：从N-Gram到NNLMRNNLM相关的知识，希望对你有一定的参考价值。

Word2vec的出现改变了OneHot的高维稀疏的困境，自此之后各种xxx2vec如雨后春笋般冒了出来，用来解决各种嵌入式编码，包括后来的各种Embedding方式其实很多本质上都是Word2vec的延伸和优化。在本公众号「搜索与推荐Wiki」上也发布了不少Embedding相关的文章，后续也会持续的发布相关文章，欢迎关注。

万物皆可Embedding系列会结合论文和实践经验进行介绍，前期主要集中在论文中，后期会加入实践经验和案例，目前已更新：

后续会持续更新Embedding相关的文章，欢迎持续关注「搜索与推荐Wiki」

1.1、基础知识

a）定义

语言模型（Language model）是自然语言处理的重要技术，自然语言处理中最常见的是文本数据，我们可以把一段自然语言文本看作是一段离散的时间序列，假设一段长度为 $T$ 的文本中的词依次是 $w_1, w_2, ..., w_T$ ，语言模型就是计算他的概率：
$P(w_1, w_2,..., w_T)$
也就是说语言模型是对语句的概率分布的建模。

语言模型可以分为：统计语言模型和神经网络语言模型。

b）概率表示

假设 $S$ 表示一个有意义的句子，eg：今天天气晴朗，适合户外爬山，可以将这个句子表示为： $S = w_1, w_2, ..., w_n$ ，换成例子中的句子： $w_1=今天, w_2=天气, w_3=晴朗, w_4=适合, w_5=户外, w_6=爬山$ 。

用 $P (S)$ 表示这个句子出现的概率，展开为：
$P(S)=P(w_1, w_2, ..., w_n)$
利用条件概率可以转化为：
$P(S) = P(w_1, w_2, ..., w_n) = P(w_1) P(w_2|w_1)P(w_3|w_1,w_2) ... P(w_n|w_1, w_2,...,w_n-1)$
其中 $P(w_1)$ 表示第一个词出现的概率，即「今天」在整个语料库中出现的概率， $P(w_2|w_1)$ 表示在给定第一个词的情况下，第二个词出现的概率，即在整个语料库中给定「今天」这个词，「天气」这个词也出现的概率，后边的依次类推。

其中的 $P(w_1)$ 和 $P(w_2|w_1)$ 很容易计算得到，但是 $P(w_3|w_1,w_2)$ 及以后涉及变量较多，计算的复杂度也会变得更加复杂。

1.2、统计语言模型——N-gram模型

a）马尔可夫假设

为了解决上面的过于复杂难以计算的问题，需要引入马尔可夫假设，马尔科夫假设中很重要的一点是有限视野假设，即每一个状态只与它前面的 $n - 1$ 个状态有关，这被称为 $n$ 阶马尔可夫链

b）n-gram

当应用在语言模型中时，就是指每一个词的概率只与前边的 $n - 1$ 个词有关系，这就被称为 $n$ 元语言模型，当 $n = 2$ 时，被称为二元模型，此时上述公式展开为：
$P(S) = P(w_1, w_2, ..., w_n) = P(w_1) P(w_2|w_1)P(w_3|w_2)...P(w_n|n_1)$
经过马尔可夫假设的简化，计算 $P (S)$ 的概率也会变得容易很多，当然随着 $n$ 的增加，相应的计算复杂度也会增加，而 $n$ 越大，越逼近数据的真实分布， $n$ 通常取值为2、3、4、5。

c）概率估计

通过上面的描述，可以明确的是：

每一个句子都可以拆分成不同的词的全排列
每一个句子都可以通过条件概率公式计算得到一个表示该句子的合理性概率
通过引入马尔可夫假设，简化句子的计算概率

以二元模型为例，如何计算 $P(w_i|w_i-1)$ ？从概率统计中可知：

以上是关于论文｜万物皆可Vector之语言模型：从N-Gram到NNLMRNNLM的主要内容，如果未能解决你的问题，请参考以下文章