1月学习进度1/31——论文阅读01“Attention is All You Need”——Transformer模型

Posted 2022-12-13 傅耳耳

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了1月学习进度1/31——论文阅读01“Attention is All You Need”——Transformer模型相关的知识，希望对你有一定的参考价值。

论文：Attention is All You Need
视频详解Transformer模型
（以下截图大部分来自于该视频）
论文逐段精度视频

0. 引言

1）为了解决什么任务

Transformer是为了解决机器翻译(machine translation tasks)任务提出的一种序列转录模型（sequence transduction model），序列转录即由序列1生成序列2。

2）序列建模与序列转录问题的研究状况

在Transformer提出之前的主流模型大都基于复杂循环或“编码-解码”结构的卷积神经网络，最好的模型采用注意力机制连接编码器和解码器。

① 循环神经网络RNN

RNN 善于处理序列数据（即后面数据与前面数据有关系），记忆以前的信息。
类比到人通过已经掌握的知识能力来对当前问题作出抉择。
（例：LSTM → LSTM详解、GRU → GRU详解）

RNN的缺点：
通过前一个隐藏状态 $h_t-1$ 和当前态 $x_t$ 得到下一个隐藏状态 $h_t$
明显的顺序性导致其有如下缺点：

时间上无法并行
若序列过长，随着隐藏层的传递，前期信息可能丢失，为了保证信息不丢失，需要扩大 $h_t$ ，则会导致内存开销大

② 卷积神经网络CNN

为了减少顺序计算（RNN缺点），提高计算效率，采用卷积神经网络CNN来代替循环神经网络RNN，可并行计算。

CNN缺点：

“This makes it more difficult to learn dependencies between distant positions.”（论文原句）
对于长序列，学习相距较远位置的依赖性很难 → 难以对长序列进行建模

③ Attention注意力机制

克服CNN缺点，其对位置之间的依赖性的计算不考虑位置远近，即其可以看到整个输入的序列。

1. Transfomer的全局架构

原论文中模型架构图：

其中 $N$ x 表示多个Encoder和多个Decoder，多个Encoder结构相同，但每个单独训练，参数不同（Decoder同理）。

2. Transformer中Encoder编码器详解

(1) 输入部分

1.Embedding

Embedding简言之，就是对于每一个词学习一个维度为d的向量表示，称为“词向量”。

2.位置编码Positional Encoding

❤ 为什么要进行位置编码？
RNN 提取序列信息时，将上一时刻的输出作为下一时刻的输入，从而保留了时序信息；
而Attention机制不考虑顺序，只是将序列中感兴趣的信息抽取出来
（若打乱词序，语义发生变化，但Attention结果不变，会出现错误）

因此，引入位置编码来表示时序信息（位置信息）

❤ 如何进行位置编码？

对于每个词Embedding后的词向量，偶数位置 $2 i （ 0, 2, 4, 6, 8 . . . 510 ）$ 使用 $s i n$ ，奇数位置 $2 i + 1 （ 1, 3, 5, 7 . . . 511 ）$ 使用 $c o s$ 。

❤ 位置嵌入？
将每个单词Embedding后的512维词向量与其对应位置编码后的512维向量，对应维度相加，得到的512维向量作为输入。

（2）注意力机制

① 基本的注意力机制
key：键
value：键对应的值
query：查询（单词）

输入：query
权重计算：query和key的相似度（相似度越大，权重越大）
输出：value的加权和

基于不同的相似度衡量，有两种常用的注意力函数：

additive attention
dot-product attention（更有效）

（点乘 → 一个向量在另一个向量方向上的投影，标量，可以用来衡量向量的相似度，两个向量越相似，其点乘结果越大）

Example：
$F (Q, K)$ 计算Query和Key的相似度
经过softmax归一化为和为1，其全为正数的值作为权重，计算value的加权和，得到Attention的输出。

② Transformer中的注意力机制
图片来源 & 参考讲解： Transformer详解

❤ TRM中的Attention函数：
采用点积
Scaled Dot-Product Attention
公式如下：

当 $d_k$ 较大时，计算得到的点积结果也很大，导致做 $s o f t m a x$ 后，大值会更接近于1，梯度较小，会引发梯度消失问题 → 点乘后乘 $\\frac1\\sqrtd_k$

❤ TRM中如何获取 $Q, K, V$ ？
其中 $q, k, v$ 向量分别是用随机初始化的矩阵 $W^Q,W^K,W^V$ 与Embedding后的向量 $X$ 相乘得到的，得到的向量维度由512维降低到64维

根据上述公式计算：
如 $z_1=0.88*v_1+0.12*v_2$

实际上使用矩阵并行计算：

❤ Multi-Headed Attention 多头注意力机制

上述中相当于只使用了一套参数 $W^Q,W^K,W^V$ ，而原论文中采用8套参数，相当于投到多个不同的空间，分别提取信息

每一个头得到一个 $Z_i$

将所有头的输出合并为一个大矩阵，再与随机初始化的矩阵 $W_O$ 相乘，得到最终多头注意力机制的输出 $Z$

注意力机制提取与query相似度高的那些重要的value值，相当于提取相关的重要信息；
多头注意力机制是多个注意力机制的集成，但每个注意力机制单独学习不同的参数，最后的结果合并后再做一次线性投影。

（3）残差与LayerNorm

(图片来源： Transformer详解）

① 残差
本文中的残差连接：

其中子层有两种 : $M u l t i - H e a d e d$ $A t t e n t i o n$ 层和 $F e e d$ $F o r w a r d$ 层

❤ 什么是残差？

将上述图片抽象为如下的模块图

大部分梯度消失都是因为连乘，最后梯度随着网络深度增加而变为0
❤ 残差作用：由上述式子可以知道，残差不会使梯度为0，所以可以增加网络深度，缓解梯度消失问题

② LayerNorm
❤ 归一化：

目的：将数据归一到均值为0，方差为1（减均值除方差）
常用方法：BatchNorm和LayerNorm

❤ 与BatchNorm区别:

BatchNorm是对所有样本每个特征进行归一化（减均值，除方差）

下图中 $x^i$ 为样本

预测时需要将所有训练样本的均值与方差作为Normalization的均值与方差
缺点：

当batch_size较小时，效果较差（所有样本作为整体的估计）
序列长度不一致，尤其长度变化较大的样本，使得全局均值、方差抖动较大，并且若训练样本中序列长度都较小，预测时对于长序列预测将出现错误

LayerNorm：对每个样本的所有特征做归一化
不需要将样本整体的均值方差作为预测时的均值方差，因为是针对每个样本求的均值方差。

两者对比：

❤ 为什么LayerNorm更适合NLP问题？

如上图中所示，若采用BN方法进行归一化，则BN将“我”-“今”、“爱”-“天”…做归一化，两个样本并不在同一个语义空间中。

LN将“我爱中国共产党”、“今天天气真不错”两个样本分别进行归一化。

3.Decoder详解

与Encoder的不同之处：

多头注意力机制增加了Mask
第二层中的多头注意力机制中的key和value的值来自于Encoder输出

（1）为什么要mask？

mask —— 将某些参数值掩盖，使其在参数更新时不产生效果

mask目的 —— 不让decoder看到未来的序列信息
因此需要将该位置之后的序列屏蔽掉

（2）与编码器的交互
Encoder的输出连接到所有Decoder的输入
如何连接：

Encoder编码器的输出生成Decoder注意力机制中的 key、value，即 $K, V$ 矩阵
Decoder注意力机制中的query，即 $Q$ 矩阵由上一个Decoder的输出生成

多个编码器-解码器相连结构如下：

以上是关于1月学习进度1/31——论文阅读01“Attention is All You Need”——Transformer模型的主要内容，如果未能解决你的问题，请参考以下文章