卷积神经网络Inception Net

Posted 2022-12-07 zhiyong_will

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了卷积神经网络Inception Net相关的知识，希望对你有一定的参考价值。

1. 概述

2014年，Google提出了包含Inception模块的网络结构，并命名为GoogLeNet[1]，其中LeNet为致敬LeNet网络，GoogLeNet在当年的ILSVRC的分类任务上获得冠军。GoogLeNet经过多次的迭代，最初的版本也被称为Inception v1。Inception的名字也得益于NIN和盗梦空间“We need to go deeper”的启发。提高模型的表达能力，最有效的办法是增加模型的大小，包括了模型的深度和模型的宽度，但是一味的增大模型会出现以下的一些问题：

模型越大，相应的参数也就会越多，就会出现过拟合；
模型越大，需要的计算资源也就会越多；

那么是否存在一种方法，能够在增大模型的同时，控制参数的个数呢？Inception v1中认为最基本的方法是使用稀疏连接代替全连接和卷积操作，同时引入 $1\\times 1$ 的卷积核来进一步减少参数个数。

2015年，Google在Inception v1的基础上提出了Batch Normalization[2]的操作，并将其添加到GoogLeNet网络中，同时对网络结构做了一些修改，也被称为Inception v2，最终在ImageNet分类任务上的成绩超过了Inception v1。

在Inception v2之后，Google对Inception模块进行重新的思考，提出了一系列的优化思路，如针对神经网络的设计提出了四条的设计原则，提出了如何分解大卷积核，重新思考训练过程中的辅助分类器的作用，最终简化了网络的结构，得到了Inception v3[3]。

2. Inception网络结构

2.1. Inception v1

在Inception v1中提出了Inception模块，该模块在增加网络的深度和宽度的过程中极大减少了模型的参数。

2.1.1. Inception模块

在Inception v1中，提出了Inception模块，希望在Inception模块中引入稀疏连接来减少参数的数量。稀疏连接有两种方法，一种是空间（spatial）上的稀疏连接，也就是传统的CNN卷积结构，即只对输入图像的某一部分patch进行卷积，而不是对整个图像进行卷积，共享参数降低了总参数的数目减少了计算量；另一种方法是在特征（feature）维度进行稀疏连接，就是前一节提到的在多个尺寸上进行卷积再聚合，把相关性强的特征聚集到一起，每一种尺寸的卷积只输出256个特征中的一部分，这也是种稀疏连接。

基于上述的特征维度的稀疏连接，Inception模块的设计便与常见的CNN网络结构不同，原先的卷积层通常采用的是串联的设计思路，而在Inception模块中则是采用将多种不同规格的卷积并联的方式，在Inception中，选择的卷积核大小分别为 $1\\times 1$ ， $3\\times 3$ ， $5\\times 5$ ，最终将各自所得到的特征图concat在一起，作为后续的输入，如下左图所示：

受到NIN[4]的启发，为进一步减少参数的个数，在 $3\\times 3$ 和 $5\\times 5$ 的卷积操作前增加了 $1\\times 1$ 的卷积核。如果不采用并联的方式，对于大小为 $28\\times 28\\times 192$ 的输入，其中通道数为 $192$ ，大小为 $28\\times 28\\times 256$ 的输出，如果只采用 $3\\times 3$ 的卷积核，则参数的个数为 $3\\times 3\\times 192\\times 256=442368$ ，若果只是采用 $5\\times 5$ 的卷积核，则参数的个数为 $5\\times 5\\times 192\\times 256=1228800$ 。

而通过concat多种不同的卷积核以及pooling操作，则可以减少参数的个数，按照上述图片中标注的每种卷积核的输出通道数，其参数的个数为：

$\\left\\\\beginmatrix 64\\times 192 \\\\ 96\\times 192+3\\times 3\\times 96\\times 128 \\\\ 16\\times 192+5\\times 5\\times 32\\times 26 \\\\ 32\\times 192\\endmatrix\\right.$

最终的参数个数为 $163328$ ，相比较上述采用单一的卷积核，参数个数大大较少了。

2.1.2. Inception v1的网络结构

将Inception模块融合到卷积网络中，替换卷积神经网络中的部分卷积操作便得到Inception v1的结构，其结构的具体参数如下表所示：

其具体的计算过程如下所示：

data：大小为 $224\\times224\\times3$ ，且都进行了零均值化的预处理操作（图像每个像素减去均值）。
convolution：输入（ $224\\times224\\times3$ ），输出（ $112\\times112\\times64$ ，其中，卷积核大小为 $7\\times7$ ，padding为 $3$ ，步长为 $2$ ，卷积核的个数为 $64$ ，卷积后进行ReLU操作）
max pool：输入（ $112\\times112\\times64$ ），输出（ $56\\times56\\times64$ ，其中，核的大小为 $3\\times3$ ，步长为 $2$ ）
convolution：输入（ $56\\times56\\times64$ ），输出（ $56\\times56\\times192$ ，其中，卷积核大小为 $3\\times3$ ，padding为 $1$ ，步长为 $1$ ，卷积核的个数为 $192$ ，卷积后进行ReLU操作）
max pool：输入（ $56\\times56\\times192$ ），输出（ $28\\times28\\times192$ ，其中，核的大小为 $3\\times3$ ，步长为 $2$ ）
Inception(3a)：分为四个分支操作，输入（ $28\\times28\\times192$ ）
- 卷积1：输出（ $28\\times28\\times64$ ，其中，卷积核大小为 $1\\times1$ ，padding为 $0$ ，步长为 $1$ ，卷积核的个数为 $64$ ）
- 卷积2：输出（ $28\\times28\\times128$ ，其中，包含了两部分的卷积操作，第一个是 $96$ 个 $1\\times1$ 的卷积核，输出为 $28\\times28\\times96$ ，第二个是 $128$ 个 $3\\times3$ 的卷积核，输出为 $28\\times28\\times128$ ）
- 卷积3：输出（ $28\\times28\\times32$ ，其中，包含了两部分的卷积操作，第一个是 $16$ 个 $1\\times1$ 的卷积核，输出为 $28\\times28\\times16$ ，第二个是 $32$ 个 $5\\times5$ 的卷积核，输出为 $28\\times28\\times32$ ）
- 卷积4：输出（ $28\\times28\\times32$ ，其中，包含了两部分的操作，第一个是max pool，核的大小为 $3\\times3$ ，输出为 $28\\times28\\times192$ ，第二个是 $32$ 个 $1\\times1$ 的卷积核，输出为 $28\\times28\\times32$ ）
- 将这四个结果进行连接，对这四部分输出结果的第三维并联，即 $64 + 128 + 32 + 32 = 256$ ，最终输出 $28\\times28\\times256$
Inception(3b)：分为四个分支操作，输入（ $28\\times28\\times256$ ）
- 卷积1：输出（ $28\\times28\\times128$ ，其中，卷积核大小为 $1\\times1$