#论文阅读#attention is all you need

Posted wxiaoli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了#论文阅读#attention is all you need相关的知识,希望对你有一定的参考价值。

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.
文章提出纯粹基于attention的NN model: Transformer
the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution.
技术分享图片
技术分享图片

 

旨在解决的问题是:
现有的encoder-decoder  framework为了factor句子的positional information,在encoder和decoder部分都使用RNN。这样做 precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples. 尽管已有一些工作在提高LSTM或Gated RNN的效率方面取得进展,但 The fundamental constraint of sequential computation, however, remains. 
此外,不使用CNN来解决RNN中sequential computation的原因是: the number of operations required to relate signals from two arbitrary input or output positions grows in the distance between positions, linearly for ConvS2S . This makes it more difficult to learn dependencies between distant positions。
所以,提出Transformer的总体目标是: reducing sequential computation。
Transformer总体模型结构:
技术分享图片     技术分享图片
Transformer中使用了三种方式的attention:
① encoder-decoder attention
② self-attention in encoder
③ self-attention in decoder
 
Transformer中的两个小细节:
技术分享图片

技术分享图片

(1)规格化点乘内积注意力(原文3.2.1 Scaled Dot-Product Attention)
 技术分享图片

(2)多头注意力 (原文3.2.2 Multi-Head Attention)

把Query, Key, Value分别线性变换到不同维度空间(变换h次,即multi-head,  每次的结果用Attention(Q,K,V)  得到一个attention ,即一个head),然后把得到的h个head级联起来就是 multi-head。

技术分享图片

(3)position encoding(原文 3.5 Positional Encoding)

由于Transformer中没有使用RNN或CNN,为了学习到sequence中各个token的relative positions和absolute positions相关信息,添加了position encoding,使其和token embedding的维数相同,以便 把(token embedding + position embedding)做为encoder和decoder的各个stack layer的输入。
position embedding的dimension也是dmodel
技术分享图片
技术分享图片

这种学习位置信息的方式很巧妙,测试了一下序列长度设置为 8,dmodel 设为32时,可视化效果:

技术分享图片

 技术分享图片关于正余弦值来近似位置的相对关系,参考苏剑林的解释:

苏剑林. (2018, Jan 06). 《《Attention is All You Need》浅读(简介+代码) 》[Blog post]. Retrieved from https://www.spaces.ac.cn/archives/4765
注:这篇文章写得很好。
技术分享图片

 

Transformer对该文总体goal(reducing sequential computation)的回应:

从3个角度对比解释why transformer可以reduce computation(原文 4 Why Self-Attention)
(主要功劳是self-attention)下图是时间复杂度的对比:
技术分享图片
 技术分享图片

 

实验结果:

任务一: machine translation
技术分享图片

技术分享图片

任务二: english constituency parsing技术分享图片
 技术分享图片

 

对Transformer 的 implementation:
The official Tensorflow Implementation can be found in: tensorflow/tensor2tensor.
To learn more about self-attention mechanism, you could read "A Structured Self-attentive Sentence Embedding".
 
 总结:
论文提出的模型结构,确实在同等甚至优于已有的模型实验结果的前提下,节省了计算时间和计算资源。这也是论文中一直强调的目标。
还有如下3点学习心得:
(1)之前对attention的使用都是在已有经典模型(如LSTM, CNN)的基础上使用注意力机制。这篇论文抛开这些基础模型,纯粹使用attention搭建encoder-decoder模型,从实验结果来看,验证了attention机制本身的威力,就像论文题目说的“attention is all you need”。
(2)另外,在encoder和decoder的内部分别使用attention,即self-attention说明自注意力机制能够很好地学习sentence内部各个token的位置信息。
(3)multi-head和在encoder和decoder部分的stacks很巧妙地在层与层之间和单层上增加了学习参数,如文中说的“分别在不同的维度空间学习到不同的关键信息”,最后把这些关键信息级联构成一个特征向量,与cnn池化层后的flat向量有异曲同工之妙。
 
 

以上是关于#论文阅读#attention is all you need的主要内容,如果未能解决你的问题,请参考以下文章

1月学习进度1/31——论文阅读01“Attention is All You Need”——Transformer模型

Transformer 论文:Attention Is All You Need

为何Transformer论文作者声称“Attention is all you need”?

论文解读:Attention Is All You Need

周三九的论文笔记 -- Attention Is All You Need

Attention is all you need 论文详解(转)