Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)
Self-Normalizing Neural Networks
Gaussian Error Linear Units (GELUs)
2012年:Hinton指导,AlexNet轰动一时 ImageNet Classification with Deep Convolutional Neural Networks (被引52025次) AlexNet体系结构 2012 年,在Hinton的指导下,Alex Krizhevsky和Sutskever 合作开发了轰动一时的AlexNet。这篇题为ImageNet Classification with Deep Convolutional Neural Networks的论文,引用量超50000次。 AlexNet以一种新颖的神经网络架构在NeurIPS亮相,包含五个卷积层和三个全连接层。这篇论文被广泛认为是一项真正的开创性工作,因为它首次证明了在GPU上训练的深度神经网络可以将图像识别任务提升到一个新的水平。 AlexNet网络对神经网络的发展产生了非常重要的影响,之后的ImageNet冠军全都采用了卷积神经网络结构,使得CNN架构成为图像分类的核心模型,并由此开启了深度学习新一波浪潮,其使用的卷积+池化+全连接的架构仍然是当前深度学习最主要的网络结构。 2012年其他重要论文:
ImageNet层次结构中的图像示例
ImageNet: A Large-Scale Hierarchical Image Database
Flexible, High Performance Convolutional Neural Networks for Image Classification
Gradient-Based Learning Applied to Document Recognition
2013年:DQN打响DRL的第一枪 Distributed Representations of Words and Phrases and their Compositionality (被引16923次) 这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法,并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。 Mikolov等人引入了Skip-gram模型,这是一种从大量非结构化文本数据中学习高质量向量表示的有效方法。与过去大部分用于学习word vectors的神经网络架构不同,Skip-gram模型的训练不涉及密集矩阵的乘法。这使得训练非常高效:一个优化过的单机实现可以在一天内训练超过1000亿字。
Playing Atari with Deep Reinforcement Learning (被引3251次)
DeepMind Atari DQN DeepMind的Atari DQN的结果开启了深度强化学习的领域。强化学习以前主要用于网格世界等低维环境,很难应用于更复杂的环境。Atari是强化学习在高维环境中的第一个成功应用,它将强化学习从从默默无闻带到了AI的重要子领域。 本文提出了一种深度学习方法,利用强化学习的方法,直接从高维的感知输入中学习控制策略。模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function。将此方法应用到 Atari 2600 games 上来,进行测试,发现在所有游戏中都比之前的方法有效,甚至在其中3个游戏中超过了一个人类玩家的水平。 2013年其他重要论文:
GloVe: Global Vectors for Word Representation
Learning from Delayed Rewards
2014年:Bengio同他的博士生Ian Goodfellow合著论文,提出了著名的生成对抗网络 Generative Adversarial Networks (被引 13917次) 生成对抗网络(GAN)的走红在很大程度上要归功于其产生的惊人视觉效果。依靠生成器和判别器之间的博弈,GAN能够建模复杂的高维分布。生成器的目的是尽量降低判别器正确判断出假样本的概率,而判别器的目标是最大程度地降低图像分类和判断假样本时的错误。 在实践中,通常会训练生成器让判别器错误识别的对数概率最大化。这可以减小梯度饱和,并提高训练稳定性。Neural Machine Translation by Jointly Learning to Align and Translate (被引 9882 次) 本文介绍了注意力的概念。与其将信息压缩到RNN的潜在空间中,不如将整个上下文保留在内存中,利用o(mn)次操作,让输出的每个元素都参与输入的每个元素。 尽管增加了计算次数,但是注意力机制要比固定状态的RNN性能更好,不仅成为翻译和语言建模等文本类任务不可或缺的一部分,而且也加入到GAN等非文本模型中。
Adam:A Method for Stochastic Optimization (被引 34082 次)
2017年:谷歌把基于Attention的序列神经模型推向高潮 Attention Is All You Need (被引 5059次) Transformer体系结构大规模利用了上文提到的注意力机制,现在已成为几乎所有最新NLP模型的基础。Transformer模型在很大程度上优于RNN,这是因为在超大型网络中前者具有计算成本上的优势。 在RNN中,需要在整个“展开”的图中传播梯度,这使内存访问成为一个很大的瓶颈,也让梯度爆炸/梯度消失梯度问题更加严重,因此需要更复杂(且计算量更大)的LSTM和GRU模型。 相比之下,Transformer模型针对高度并行处理进行了优化。计算成本最高的部分是注意力层之后的前馈网络(可以并行化应用)和注意力层本身(大矩阵乘法,很容易优化)。
Neural Architecture Search with Reinforcement Learning (被引1186次)
神经架构搜索(NAS)已成为“榨干”最后一点网络性能的普遍方式。NAS无需手动设计架构,而是让这个过程实现自动化。本文使用强化学习对控制器网络进行了训练,以生成高性能的网络架构,从而创建了许多SOTA网络。其他方法,如面向图像分类器体系结构搜索的AmoebaNet则使用进化算法。 2018年:NLP里程碑,谷歌BERT模型狂破11项纪录 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (被引3025次) BERT与GPT和ELMo的比较
Improving Language Understanding by Generative Pre-Training
Language Models are Unsupervised Multitask Learners
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
XLNet: Generalized Autoregressive Pretraining for Language Understanding
Neural Machine Translation of Rare Words with Subword Units
2019年:MIT科学家提出彩票假设,神经网路缩小10倍并不影响结果 Deep Double Descent: Where Bigger Models and More Data Hurt Deep Double Descent 在这篇论文中,哈佛大学联合 OpenAI 提出了泛化的双重下降假设,即当模型和训练过程的有效模型复杂性与训练样本数量相当时,它们会呈现出非典型的行为。 研究者证明,各种现代深度学习任务都表现出「双重下降」现象,并且随着模型尺寸的增加,性能首先变差,然后变好。此外,他们表明双重下降不仅作为模型大小的函数出现,而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量(称为有效模型复杂性,Effective Model Complexity)来统一上述现象,并针对该度量推测一个广义的双重下降。此外,他们对模型复杂性的概念使其能够确定某些方案,在这些方案中,增加(甚至四倍)训练样本的数量实际上会损害测试性能。
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks