深度学习CV领域必读论文

Posted 2021-12-21 Fighting_1997

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习CV领域必读论文相关的知识，希望对你有一定的参考价值。

深度学习CV领域必读论文

01 深度学习CV领域划时代论文具有里程碑意义

期刊日期：

NIPS-2012，Alexnet

论文名称：

《ImageNet Classification with Deep Convolutional Neural Networks》

摘要

本论文的主要内容是训练了一个深度卷积网络（6千万参数、65万神经元，结构为五层卷积，某些卷积层后接max-pooling层，后接三个全连接层，图中的方块或者竖条是feature map，连接的线是layer的名字，全连接就是dense layer。最后的特征1000个元素的feature map，丢给没在图上体现的softmax完成分类）来完成2010年的ImageNet分类比赛的任务（LVSRC-2010），将120万张高分辨率的图片分为1000个类别。

论文链接：

https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

论文翻译
https://blog.csdn.net/frighting_ing/article/details/121583735?spm=1001.2014.3001.5501

论文精讲
https://blog.csdn.net/frighting_ing/article/details/120774252?spm=1001.2014.3001.5502

02 开启3*3卷积堆叠时代

期刊日期：

ICLR-2015，VGG net

论文名称：

《Very Deep Convolutional Networks for Large-Scale Image Recognition》

摘要

本文研究了深度对卷积网络在大规模图像识别中准确率的影响。本文的主要贡献是，对使用很小(3×3)的卷积滤波器来增加深度的网络进行了一个全面的评估，表明了通过将深度提高到16——19个权重层，业界最好网络的性能也能够得到显著的提升。

这些发现是我们参加ImageNet2014挑战赛的基础，我们也因此在定位和分类跟踪任务上分别获得了第一名和第二名的成绩。本文表明了我们的模型在其他数据集上同样表现得很好，并都达到了当前最佳的水平。我们已经公布了两种性能最好的卷积网络模型，希望能促进将深度视觉表达应用于计算机视觉的进一步研究。

论文链接：

https://arxiv.org/pdf/1409.1556.pdf

模型代码：

https://worksheets.codalab.org/worksheets/0xe2ac460eee7443438d5ab9f43824a819

内容总结学习:
https://blog.csdn.net/frighting_ing/article/details/121325797?spm=1001.2014.3001.5501

03 Google系列论文开创论文-提出多尺度卷积模块

期刊日期：

CVPR-2015，googlenet v1

论文名称：

《Going deeper with convolutions》

摘要：

我们提出了一个名为“Inception”的深度卷积神经网结构，其目标是将分类、识别ILSVRC14数据集的技术水平提高一个层次。这一结构的主要特征是对网络内部计算资源的利用进行了优化。

这一目标的实现是通过细致的设计，使得在保持计算消耗稳定不变的同时增加网络的宽与深。

为了提高质量，网络结构基于赫布原则（Hebbian principle）和多尺度处理规则（intuition of multi-scale processing）设计。一个具体化的例子是所谓GoogLeNet，也就是我们提交到ILSVRC14的成果，它是一个22层深的网络，其质量在分类和检测这两项指标中获得评估。

论文链接：

https://arxiv.org/pdf/1409.4842.pdf

04 神经网络大杀器-BN层提出

期刊日期：

arXiv-2015，googlenet v2

论文名称：

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

摘要

Batch Normalization的加速作用体现在两个方面：一是归一化了每层和每维度的scale，所以可以整体使用一个较高的学习率，而不必像以前那样迁就小scale的维度；二是归一化后使得更多的权重分界面落在了数据中，降低了overfit的可能性，因此一些防止overfit但会降低速度的方法，例如dropout和权重衰减就可以不使用或者降低其权重。

论文链接：

https://arxiv.org/pdf/1502.03167.pdf

05 卷积分解及结构进化-超越人类精度

期刊日期：

CVPR-2016，googlenet v3

论文名称：

《Rethinking the Inception Architecture for Computer Vision》

摘要

GoogLeNet经过了Inception V1、Inception V2（BN）的发展以后，Google的Szegedy等人又对其进行了更深层次的研究和拓展，在本文中，作者提出了当前环境下，网络设计的一些重要准则，并根据这些准则，对原有的GoogLeNet进行了改进，提出了一个更加复杂、性能更好的模型框架：Inception V3。这篇文章证明了这些改进的有效性，并为以后的网络设计提供了新的思路。

论文链接：

https://arxiv.org/pdf/1512.00567.pdf

06 工业界标杆模型-最具影响力的卷积神经网络

期刊日期：

CVPR-2016，resnet

论文名称：

《Deep Residual Learning for Image Recognition》

摘要

本文展示了一种残差学习框架，能够简化使那些非常深的网络的训练，该框架使得层能根据其输入来学习残差函数而非原始函数（unreferenced functions）。

本文提供了全面的依据表明，这些残差网络的优化更简单，而且能由更深的层来获得更高的准确率。本文在ImageNet数据集上使用了一个152层深的网络来评估我们的残差网络，虽然它相当于8倍深的VGG网络，但是在本文的框架中仍然只具有很低的复杂度。

这些残差网络的一个组合模型（ensemble）在ImageNet测试集上的错误率仅为 3.57%。这个结果在2015年的ILSVRC分类任务上获得了第一名的成绩。我们在CIFAR-10上对100层和1000层的残差网络也进行了分析。

论文链接：

https://arxiv.org/pdf/1512.03385.pdf

代码实现：
https://blog.csdn.net/frighting_ing/article/details/121324000?spm=1001.2014.3001.5501

07 Inception与ResNet结构的尝试

期刊日期：

arXiv-2016，googlenet v4

论文名称：

《Inception-ResNet and the Impact of Residual Connections on Learning》

摘要

论文链接：

https://arxiv.org/pdf/1602.07261.pdf

08何恺明团队对ResNet重大改进

期刊日期：

CVPR-2017，ResNeXt

论文名称：

《Aggregated Residual Transformations for Deep Neural Networks》

摘要

在保持模型现有的复杂度的情况下，提高模型的学习能力？

该论文从这个角度出发，提出了考量模型的另一个纬度：cardinality（即模型split-transform-merge的集合的数目，笔者理解就是一个block里面，branches或者paths的个数）

论文链接：

https://arxiv.org/pdf/1611.05431.pdf

模型代码：

https://github.com/facebookresearch/ResNeXt

09 ResNet的改进-2016-ILSVRC冠军

期刊日期：

CVPR-2017，densenet

论文名称：

《Densely Connected Convolutional Networks》

摘要

这篇论文是CVPR 2017的最佳论文，即16年的resnet之后这篇文章提出了DenseNet这样一个全新的网络框架，丰富了自LeNet至今的CNN网络体系。本着学习的态度，我趁这个周末上午学习了DenseNet的框架，主要介绍DenseNet的结构特点以及他与ResNet之间的对比。

论文链接：

https://arxiv.org/pdf/1608.06993.pdf

模型代码：

https://github.com/liuzhuang13/DenseNet

内容精讲和代码实现:
https://blog.csdn.net/frighting_ing/article/details/121582735?spm=1001.2014.3001.5501

10 引入注意力机制的卷积神经网络-2017-ILSVRC（最后一届）冠军

期刊日期：

TPAMI-2017，Senet

论文名称：

《Squeeze-and-Excitation Networks》

摘要

Sequeeze-and-Excitation(SE) block并不是一个完整的网络结构，而是一个子结构，可以嵌到其他分类或检测模型中，作者采用SENet block和ResNeXt结合在ILSVRC 2017的分类项目中拿到第一，在ImageNet数据集上将top-5 error降低到2.251%，原先的最好成绩是2.991%。

作者在文中将SENet block插入到现有的多种分类网络中，都取得了不错的效果。SENet的核心思想在于通过网络根据loss去学习特征权重，使得有效的feature map权重大，无效或效果小的feature map权重小的方式训练模型达到更好的结果。当然，SE block嵌在原有的一些分类网络中不可避免地增加了一些参数和计算量，但是在效果面前还是可以接受的。

论文链接：

https://arxiv.org/pdf/1709.01507.pdf

模型代码：

https://github.com/hujie-frank/SENet

内容精讲和代码实现：
https://blog.csdn.net/frighting_ing/article/details/121429665?spm=1001.2014.3001.5501

以上是关于深度学习CV领域必读论文的主要内容，如果未能解决你的问题，请参考以下文章

卷积神经网络必读的7篇经典论文

工业界推荐系统必读论文：基于深度学习的推荐模型——DLRM

最近几年-基于深度学习自然语言处理的推荐系统-必读论文整理分享

CV开山之作：《AlexNet》深度学习图像分类经典论文总结学习笔记（原文＋总结）

深度学习在CV领域已触及天花板？