6.1 ELMo数学理解

Posted 2021-06-07 炫云云

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了6.1 ELMo数学理解相关的知识，希望对你有一定的参考价值。

文章目录

语言模型

这篇文章主要是用pretrained bidirectional language model 来学你所需任务中的词向量的，这样做的好处是现在所用的词向量是有你任务中语料的上下文信息的。拿word2vec来说，原来的词向量都是在特定语料上直接训练的，你要做啥任务就直接把词向量搬过来做任务了，最多训练的时候fine-tune一下，基本很少训练，也学不到特定环境中的语义信息，特别是这篇文章中指出的一词多义。因此就有了ELMo(这个小名比较好记，也比较形象)。

双向语言模型

给定一个句子 $t_1, t_2, ...,t_N)$ ,前向语言模型的学习方式是
$p(t_1, t_2,...,t_N) = \\prod_{k = 1}^Np(t_k|t_1,t_2,...,t_{k-1})$
给定 $t_1,t_2,...,t_{k-1})$ ，通过前向语言模型我们就可以得到 $t_{k}$ 的表示 $\\overrightarrow{h^{LM}_{k,j}}$ ,输入到softmax layer里面就可以用来预测 $t_{k}$ 了。k说明是第k个词,j的意思是LSTM layers的第j层

后向语言模型：

$p(t_1, t_2,...,t_N) = \\prod_{k = 1}^Np(t_k|t_{k+1},t_{k+2},...,t_{N})$
给定 $t_{k+1}, ...,t_N)$ ，通过后向语言模型我们就可以得到 $t_{k}$ 的表示 $\\overleftarrow{h^{LM}_{k,j}}$

biLM就是前向语言模型和后向语言模型的结合，公式就是最大化前向和后向似然函数。
$\\sum_{k = 1}^N(logp(t_k|t_1,t_2,...,t_{k-1};\\theta_x,\\overrightarrow{\\theta}_{LSTM}, \\theta{s}) + logp(t_k|t_{k+1},t_{k+2},...,t_{N};\\theta_x,\\overleftarrow{\\theta}_{LSTM}, \\theta{s}))$
$\\theta{x}$ 是token representation的参数， $\\theta{s}$ 是softmax layer的参数， $\\overrightarrow{\\theta}_{LSTM}$ 和 $\\overleftarrow{\\theta}_{LSTM}$ 分别是前向和后向模型的网络参数

ELMo

ELMo模型示意如图1

$图 1$
图1 ELMo是由多个biLSTM叠加组成，输出每个词表征由 $T_i$ 表示，是由L层biLSTM相应位置的隐藏向量组合而成。

不同于其他类型的模型采用最顶层的输出作为token的表示，Elmo采用多个层的线性加和作为token的表示，对于每个token，在一个 $L$ 层的biLm中可以输出 $2 L + 1$ 个表示：
$R_k = \\{x^{LM}_k, \\overrightarrow{h^{LM}_{k,j}}, \\overleftarrow{h^{LM}_{k,j}} |j=1,...,L\\} =\\{h^{LM}_{k,j}|j=0,...L\\}$

以上是关于6.1 ELMo数学理解的主要内容，如果未能解决你的问题，请参考以下文章

NLP的游戏规则从此改写？从word2vec, ELMo到BERT