为何Transformer论文作者声称“Attention is all you need”？

Posted 2023-02-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了为何Transformer论文作者声称“Attention is all you need”？相关的知识，希望对你有一定的参考价值。

参考技术A 详解Transformer （论文Attention Is All You Need）. 正如论文的题目所说的，Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。. 更准确地讲，Transformer由且参考技术B

摘要。主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络，且都包含一个encoder和一个decoder …

1 Introduction（简介）RNN,LSTM,GRU,Gated Recurrent Neural Networks 在序列建模和转换任务上，比如语言 …

2 Background（背景）减少序列计算的目标也成就了 Extended Neural GPU [16],ByteNet[18],和ConvS2S[9] …

3 Model Architecture（模型结构）大多数有竞争力的序列转换模型都有encoder-decoder结构构。这 …

参考技术C transformer 的并行化主要体现在self- attention 模块上,在encod er 端其可以并... 论文名: Attention Is All You Need 论文作者:Ash is h Vaswani 等期刊/会议名参考技术D 在Attention is all you need论文中提出的Transformer。它的一个TensorFlow实现可以作为Tensor2Tensor包的一部分。哈佛大学的NLP小组创建了一个使用PyTorch实现注释该论文的指南。在... 第5个回答 2021-11-15 2019年11月16日论文《Attention Is All You Need》简称Transformer,作者Ashish Vaswani(Google Brain),经典的自注意力论文。 2. 摘要 ...

Spatial Transformer Networks(STN)-论文笔记

论文： Spatial Transformer Networks
作者：Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu
code1：https://github.com/oarriaga/STN.keras
code2：https://github.com/kevinzakka/spatial-transformer-network

1. 问题提出

CNN在图像分类中取得了显著的成效，主要是得益于 CNN 的深层结构具有： $\\colorred平移不变性、缩小不变性$ ；还对缺失的 $\\colorred空间不变性（spatially\\;invariance）$ 做了相应的实验。
- $平移不变性$ 主要是由于 Pooling 层和步长不为1的卷积层的存在带来的。实际上主要是池化层的作用：
  - 层越多，越深，池化核或卷积核越大，空间不变性也越强；
  - 但是随之而来的问题是局部信息丢失，所以这些层越多准确率肯定是下降的，所以主流的CNN分类网络一般都很深，但是池化核都比较小，比如2×2。
- $缩小不变性$ 主要是通过降采样来实现的。降采样比例要根据数据集调整，找到合适的降采样比例，才能保证准确率的情况下，有较强的空间不变性。
  - 比如ResNet，GoogLeNet，VGG，FCN，这些网络的总降采样比例一般是 16或32，基本没有见过 64倍，128倍或者更高倍数的降采样（会损失局部信息降低准确率），也很少见到 2倍或者4倍的降采样比例（空间不变性太弱，泛化能力不好）。
$\\colorred空间不变性（spatially\\;invariance）$ 这些不变性的本质就是图像处理的经典手段：空间变换，又服从于同一方法：坐标矩阵的仿射变换。因此DeepMind设计了 $\\colorredSpatial\\;Transformer\\;Networks$ (简称STN)，目的就是显式地赋予网络对于以上各项变换(transformation)的不变性(invariance) .
–

2. 图像处理技巧

2.1 仿射变化

主要是要处理 $(2\\times 3)$ 的变换矩阵：
$\\mathcalT_\\theta = \\beginbmatrix \\theta _11 & \\theta _12 & \\theta _13 \\\\ \\theta _21 & \\theta _22 & \\theta _23 \\endbmatrix\\tag2.1$

平移：
$\\left[\\beginarrayccc 1 & 0 & \\theta_13 \\\\0 & 1 & \\theta_23 \\endarray\\right]\\left[\\beginarraylx \\\\y \\\\1 \\endarray\\right]=\\left[\\beginarrayl x+\\theta_13 \\\\y+\\theta_23 \\endarray\\right]\\tag2.2$
缩放：
$\\left[\\beginarrayccc \\theta_11 & 0 & 0 \\\\0 & \\theta_22 & 0 \\endarray\\right]\\left[\\beginarraylx \\\\y \\\\1 \\endarray\\right]=\\left[\\beginarrayl \\theta_11 x \\\\\\theta_22 y\\endarray\\right]\\tag2.3$
旋转：
对于旋转操作，设绕原点顺时针旋转 $\\alpha$ 度，坐标仿射矩阵为:
$\\left[\\beginarrayccc \\cos (\\alpha) & \\sin (\\alpha) & 0 \\\\ -\\sin (\\alpha) & \\cos (\\alpha) & 0 \\endarray\\right]\\left[\\beginarraylx \\\\y \\\\1 \\endarray\\right]=\\left[\\beginarrayc\\cos (\\alpha) x+\\sin (\\alpha) y \\\\-\\sin (\\alpha) x+\\cos (\\alpha) y \\endarray\\right]\\tag2.4$

由于图像的坐标不是中心坐标系，通常需要做Normalization，把坐标调整到
以上是关于为何Transformer论文作者声称“Attention is all you need”？的主要内容，如果未能解决你的问题，请参考以下文章