最初模型的建立:
1959年,Hubel & Wiesel发现动物视觉皮层中的细胞负责检测感受野(receptive fields)中的光线。论文:Receptive fields and functional architecture of monkey striate cortex(1968)
1980年,Kunihiko Fukushima提出新认知机(neocognitron),被认为是CNN的前身。论文:A self-organizing neural network model for a mechanism of visual pattern recognition(1982)
1990年,LeCun建立了CNN的现代框架。论文:Handwritten digit recognition with a back-propagation network(1989NIPS)
1998年,LeCun改进CNN,他们开发了一个名为LeNet-5的多层人工神经网络,可以对手写数字进行分类。与其他神经网络一样,LeNet-5具有多个层,可以通过反向传播算法进行训练。它可以获得原始图像的有效表示,这使得从原始像素直接识别视觉模式成为可能,而且很少进行预处理。论文:Gradient-based learning applied to document recognition(1998)
1990年,Zhang使用一个平移不变性的人工神经网络(SIANN),识别图像的字符。但由于当时缺乏大量的训练数据和计算能力,他们的网络在更复杂的问题,例如大规模的图像和视频分类方面不能很好地运行。论文:Parallel distributed processing model with local space-invariant interconnections and its optical architecture(1990)
2015年,Krizhevsky提出一个经典的CNN架构,即AlexNet。它显示了在图像分类任务上根据以前方法的重大改进,在整体结构上与LeNet-5类似,但深度更深。论文:Imagenet large scale visual recognition challenge(2015IJCV)
后续模型的改进:
ZFNet 论文:Visualizing and understanding convolutional networks(2014ECCV)
VGGNet 论文:Very deep convolutional networks for large-scale image recognition(2015ICLR)
GoogleNet 论文:Going deeper with convolutions(2015CVPR)
ResNet 论文:Deep residual learning for image recognition(2016CVPR)
从架构的演变来看,一个典型的趋势是网络正在变得越来越深。通过增加深度,网络可以更好地近似(逼近)目标函数,增加非线性,并得到更好的特征表示。然而,这也增加了网络的复杂性,使网络变得更难以优化、更容易过拟合。在此基础上,提出了解决这些问题的各种方法。