卷积神经网络

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了卷积神经网络相关的知识，希望对你有一定的参考价值。

参考技术A

卷积神经网络 （Convolutional Neural Networks，CNN）是一种前馈神经网络。卷积神经网络是受生物学上感受野（Receptive Field）的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中，一个神经元的感受野是指视网膜上的特定区域，只有这个区域内的刺激才能够激活该神经元。

卷积神经网络又是怎样解决这个问题的呢？主要有三个思路：

在使用CNN提取特征时，到底使用哪一层的输出作为最后的特征呢？

答：倒数第二个全连接层的输出才是最后我们要提取的特征，也就是最后一个全连接层的输入才是我们需要的特征。

全连接层会忽视形状。卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。因此，在CNN中，可以（有可能）正确理解图像等具有形状的数据。

CNN中，有时将 卷积层的输入输出数据称为特征图（feature map） 。其中， 卷积层的输入数据称为输入特征图（input feature map） ， 输出数据称为输出特征图（output feature map）。

卷积层进行的处理就是 卷积运算 。卷积运算相当于图像处理中的“滤波器运算”。

滤波器相当于权重或者参数，滤波器数值都是学习出来的。 卷积层实现的是垂直边缘检测 。

边缘检测实际就是将图像由亮到暗进行区分，即边缘的过渡(edge transitions)。

卷积层对应到全连接层，左上角经过滤波器，得到的3，相当于一个神经元输出为3.然后相当于，我们把输入矩阵拉直为36个数据，但是我们只对其中的9个数据赋予了权重。

步幅为1 ，移动一个，得到一个1，相当于另一个神经单元的输出是1.

并且使用的是同一个滤波器，对应到全连接层，就是权值共享。

在这个例子中，输入数据是有高长方向的形状的数据，滤波器也一样，有高长方向上的维度。假设用（height, width）表示数据和滤波器的形状，则在本例中，输入大小是(4, 4)，滤波器大小是(3, 3)，输出大小是(2, 2)。另外，有的文献中也会用“核”这个词来表示这里所说的“滤波器”。

对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。这里所说的窗口是指图7-4中灰色的3 × 3的部分。如图7-4所示，将各个位置上滤
波器的元素和输入的对应元素相乘，然后再求和（有时将这个计算称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。

CNN中，滤波器的参数就对应之前的权重。并且，CNN中也存在偏置。

在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding），是卷积运算中经常会用到的处理。比如，在图7-6的例子中，对大小为(4, 4)的输入数据应用了幅度为1的填充。“幅度为1的填充”是指用幅度为1像素的0填充周围。

应用滤波器的位置间隔称为 步幅（stride） 。

假设输入大小为(H, W)，滤波器大小为(FH, FW)，输出大小为(OH, OW)，填充为P，步幅为S。

但是所设定的值必须使式（7.1）中的和分别可以除尽。当输出大小无法除尽时（结果是小数时），需要采取报错等对策。顺便说一下，根据深度学习的框架的不同，当值无法除尽时，有时会向最接近的整数四舍五入，不进行报错而继续运行。

之前的卷积运算的例子都是以有高、长方向的2维形状为对象的。但是，图像是3维数据，除了高、长方向之外，还需要处理通道方向。

在3维数据的卷积运算中，输入数据和滤波器的通道数要设为相同的值。

因此，作为4维数据，滤波器的权重数据要按(output_channel, input_channel, height, width)的顺序书写。比如，通道数为3、大小为5 × 5的滤
波器有20个时，可以写成(20, 3, 5, 5)。

对于每个通道，均使用自己的权值矩阵进行处理，输出时将多个通道所输出的值进行加和即可。

卷积运算的批处理，需要将在各层间传递的数据保存为4维数据。具体地讲，就是按(batch_num, channel, height, width)的顺序保存数据。

这里需要注意的是，网络间传递的是4维数据，对这N个数据进行了卷积运算。也就是说，批处理将N次的处理汇总成了1次进行。

池化是缩小高、长方向上的空间的运算。比如，如图7-14所示，进行将2 × 2的区域集约成1个元素的处理，缩小空间大小。

图7-14的例子是按步幅2进行2 × 2的Max池化时的处理顺序。“Max池化”是获取最大值的运算，“2 × 2”表示目标区域的大小。如图所示，从
2 × 2的区域中取出最大的元素。此外，这个例子中将步幅设为了2，所以2 × 2的窗口的移动间隔为2个元素。另外，一般来说，池化的窗口大小会和步幅设定成相同的值。比如，3 × 3的窗口的步幅会设为3，4 × 4的窗口的步幅会设为4等。

除了Max池化之外，还有Average池化等。相对于Max池化是从目标区域中取出最大值，Average池化则是计算目标区域的平均值。 在图像识别领域，主要使用Max池化。 因此，本书中说到“池化层”时，指的是Max池化。

池化层的特征
池化层有以下特征。
没有要学习的参数
池化层和卷积层不同，没有要学习的参数。池化只是从目标区域中取最大值（或者平均值），所以不存在要学习的参数。
通道数不发生变化
经过池化运算，输入数据和输出数据的通道数不会发生变化。如图7-15所示，计算是按通道独立进行的。

对微小的位置变化具有鲁棒性（健壮）
输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。比如，3 × 3的池化的情况下，如图
7-16所示，池化会吸收输入数据的偏差（根据数据的不同，结果有可能不一致）。

经过卷积层和池化层之后，进行Flatten，然后丢到全连接前向传播神经网络。

（找到一张图片使得某个filter响应最大。相当于filter固定，未知的是输入的图片。）未知的是输入的图片？？？

k是第k个filter，x是我们要找的参数。?这里我不是很明白。我得理解应该是去寻找最具有代表性的特征。

使用im2col来实现卷积层

卷积层的参数是需要学习的，但是池化层没有参数需要学习。全连接层的参数需要训练得到。

池化层不需要训练参数。全连接层的参数最多。卷积核的个数逐渐增多。激活层的size，逐渐减少。

最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性 。

像这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。

参数
• input_dim ― 输入数据的维度：（通道，高，长）
• conv_param ― 卷积层的超参数（字典）。字典的关键字如下：
filter_num ― 滤波器的数量
filter_size ― 滤波器的大小
stride ― 步幅
pad ― 填充
• hidden_size ― 隐藏层（全连接）的神经元数量
• output_size ― 输出层（全连接）的神经元数量
• weitght_int_std ― 初始化时权重的标准差

LeNet

LeNet在1998年被提出，是进行手写数字识别的网络。如图7-27所示，它有连续的卷积层和池化层（正确地讲，是只“抽选元素”的子采样层），最后经全连接层输出结果。

和“现在的CNN”相比，LeNet有几个不同点。第一个不同点在于激活函数。LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。
此外，原始的LeNet中使用子采样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。

AlexNet

在LeNet问世20多年后，AlexNet被发布出来。AlexNet是引发深度学习热潮的导火线，不过它的网络结构和LeNet基本上没有什么不同，如图7-28所示。

AlexNet叠有多个卷积层和池化层，最后经由全连接层输出结果。虽然结构上AlexNet和LeNet没有大的不同，但有以下几点差异。
• 激活函数使用ReLU。
• 使用进行局部正规化的LRN（Local Response Normalization）层。
• 使用Dropout

TF2.0实现卷积神经网络

valid意味着不填充，same是填充
or the SAME padding, the output height and width are computed as:

out_height = ceil(float(in_height) / float(strides[1]))

out_width = ceil(float(in_width) / float(strides[2]))

And

For the VALID padding, the output height and width are computed as:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))

out_width = ceil(float(in_width - filter_width + 1) / float(strides[2]))
因此，我们可以设定 padding 策略。在 tf.keras.layers.Conv2D 中，当我们将 padding 参数设为 same 时，会将周围缺少的部分使用 0 补齐，使得输出的矩阵大小和输入一致。

PART 4 W1 卷积神经网络介绍

参考技术A 一个是图像分类：如猫脸识别等；一个是目标检测：如无人驾驶技术中的各种交通信号检测技术

1. 卷积操作及过滤器/卷积核的概念

如上图所示：最左侧矩阵是一个灰度图像，中间是一个3*3的小矩阵，称为“卷积核”或“过滤器”。

卷积：先把卷积核放到灰度图像左上角（绿色框），盖住灰度图像上一个3*3的矩阵区域，然后9对对应的元素相乘，然后求和（得到0），然后把卷积核逐渐移动一行一行的“扫描”，最终得到最右侧矩阵。上述操作叫做“卷积”，最右侧矩阵是卷积的输出。

2. 垂直边缘检测

仍以上图为例，可以看到3*3的卷积核具体的数值构成为“左边一列1，中间一列0，右边一列-1”，这种卷积核在“扫描”灰度图像时，可以检测到灰度图像的垂直边缘。分析如下：

1）假设正在扫描的灰度区域没有垂直边缘，意味着区域内的值在左右方向上分布差不多，与卷积核做完运算后，左边的乘1，右边的乘-1，相加正好有一定的抵消作用，其实计算出来的结果会接近0。即：卷积结果接近0代表没有边缘。

2）有垂直边缘分为两种情况：目标区域“左边值较大，右边值较小” 或“左边值较小，右边值较大”。前一种情况在卷积操作后会得到一个较大的正值，后一种情况卷积操作后会得到一个较大的负值。

可以看出，较大的正值代表着目标区域的变化趋势与卷积核相同，即检测到的是与卷积核相同的边缘，而较大的负值代表目标区域的变化趋势与卷积核相反，即检测到的是与卷积核相反的边缘。

3. 卷积应用在卷积神经网络中

卷积操作如何应用于神经网络中？简言之，卷积核本身就是网络要学习的参数。如上图所示，我们并不是事先设定好要检测垂直边缘或水平边缘或其它什么边缘，而是要网络去学习要检测什么东西。

1. padding的原因

在上节展示的卷积操作中，可以看出，假设输入图像的大小为n*n，而卷积核的大小为f*f，那么卷积核从输入图像的左上角扫描到右下角，最终得到的结果大小为(n-f+1)*(n-f+1)，意味着如果一次次进行卷积，那么结果的尺寸会越来越小

另外，显然输入图像边缘的像素被使用的较少（最边缘的像素仅被使用一次），这显然会造成信息的丢失。

2. 如何进行padding

非常简单：把输入图像的四周补充p = (f-1)/2 圈的0，这样输入的图像尺寸变成了(n+2p)*(n+2p)，因此卷积后的大小变成了(n+2p -f + 1)*(n+2p -f + 1)=n*n，即与原始的图像有了相同的大小，且原始图像边缘的像素也被较多的利用到。

3. 几点补充

（1）卷积核的尺寸设置为奇数：因为① 这样(f-1)/2就恰好是整数了，方便进行padding，② 有中心像素，便于表征卷积核的位置，等。

（2）根据是否进行padding，分为普通卷积(valid) 和同尺寸卷积(same)

1. 步长概念

在上文中讲到卷积，即使用一个卷积核对输入图像进行“扫描”并进行相应计算时，提到这个“扫描”是逐个像素逐个像素的迈进的。但是，并不一定非得这样，也可以每次跨越两个或更多个像素，这就是“步长”的概念，一般用s表示

2. 卷积结果尺寸与步长的关系

前文提到，若输入图像尺寸为n*n，卷积核尺寸为f*f，则卷积结果尺寸为(n+f-1)*(n+f-1)，若算上padding操作，则结果为(n+2p -f + 1)*(n+2p -f + 1)。这是在步长s=1的前提下成立。若步长不为1，则结果为floor((n+2p-f)/s+1)**2

3. 其它：数学中的卷积和神经网络中的卷积

需要说明的是，神经网络中所说的卷积和数学中说的卷积不是一回事，但数学中的卷积是啥就不追究了。

神经网络中的卷积操作，在数学的描述上，更像是一种“交叉相关性”的计算，可以看出，若目标区域与卷积核有类似的分布，则会计算出较大的正值（正相关），若有相反的分布，则会计算出较大的负值（负相关），若没什么关系，则会计算出接近0的值（不相关）。卷积操作的确很像一种相关性的计算。

1. RGB图像的数学构成

灰度图像是一个n*n的二维矩阵，彩色图像则是n*n*3 的三维矩阵，最外围的三个维度分别代表了RGB三原色的值，其中数字“3”在卷积神经网络中被称为通道数或信道数

2. 对RGB图像进行卷积

在对灰度图像进行卷积时，使用的是f*f的二维卷积核。在对RGB图像进行卷积时，则卷积核的维度也+1，变成了f*f*3。一次卷积的结果仍然是把所有的值加起来输出一个值。即：一个三维的图像，和一个三维的卷积核，在进行完卷积操作后，输出的是一个二维的矩阵（如上图）。

3. 当使用多个卷积核时的输出

如上图所示，可以使用多个卷积核（一个亮黄色，一个屎黄色）。根据前文描述，一个立体的卷积核在一个立体的矩阵上扫描完，结果是一个二维的。但当使用多个卷积核时，则输出了多个二维矩阵，这些二维矩阵沿着第三个维度排列到一起，使得结果重新变成了三维。此时，第三个维度的尺寸，反应的是卷积核数，也就是说卷积核数就是信道数。直观理解，每一个卷积核代表着检测了某一种特征，多个卷积核就是同时检测了多种特征，传递了多种信息。

1. 一个卷积层的数据的基本流

如上图所示，由于卷积核本身就是一堆待学参数w，所以卷积操作本质还是“加权求和”，之后会加入偏置值，然后进行非线性变换，然后输出（到下一层），可见还是那一套。

需要提一下的是，卷积的输入不一定是原始图像构成的矩阵，还有可能是上一个卷积的结果。原始图像是彩色的，有多个通道。卷积时可以用多个卷积核，最终产生的结果也是立体的。因此原始的输入与中间卷积层的输出，在数学形式上是统一的。因此可以“输入->卷积层->卷积层->...”这样操作。

2. 卷积层的参数规模

一个卷积层总的参数规模（包括w，不包括b）为：，即：卷积核的大小的平方*上层输出的通道数）*本层所用的卷积核数。与上层输入的大小无关（但与通道数有关）

3. 一个卷积层涉及到的超参

卷积核的大小、是否padding、步长、卷积核数。

1. 一个示例

上图为一个简单的卷积神经网络示例：一层一层的卷积，最后把所有的元素展开成一个一维向量，然后加一个全连接层。

2. 注意以下几点：

1⃣️ 实际上CNN会有卷积层、池化层、全连接层，而非仅有卷积和全连接；

2⃣️ 从数据的构成形式上看，按照网络从前往后的顺序，图片尺寸不断减小，信道数量不断增加。一般遵从这个趋势。

1. 池化

如上图所示，假设输入是一个4*4的矩阵，现在我们把它分割成2*2四个子矩阵（或者说使用一个2*2的核以2为步长扫描矩阵），对四个子区域分别求最大值，最终得到一个值为9、2、6、3的2*2的矩阵输出。这种操作就叫池化，具体为最大值池化。

2. 池化的作用

1⃣️ 一般来说，较大的值往往代表学到了一个重要或典型的特征，把原始输入以某种方式滤除掉一些不重要的值，只保留一些较大的值，相当于强化了一些重要信息的表达。2⃣️ 降低图片的尺寸，可以节省空间、加速运算等。

3. 池化的特点

并没有需要学习的参数（w、b之类的），也因此“池化层”一般并不被称为单独的一层。在卷积神经网络中，通常把一个卷积层+一个池化层的组合叫一层。

4. 池化的超参数及经验值

池化层没有要学习的参数，只有核心的两个超参：池化核的大小、池化步长。此外还有池化所用的reduce操作：最大或者平均（没有其它选项）。

一般把池化核的大小设置为3或2，步长为2。注意：步长为2意味着把图片减小到原来的一半。

reduce操作最常用最大池化，偶尔用平均池化，不会用其它操作。

上图为一个典型的卷积神经网络示例，描述如下：

输入层：彩色的手写数字图片，数学构成为32*32*3的矩阵，其中3为通道数。

Layer 1-卷积层：1）使用6个5*5*3的卷积核，以步长为1对输入层进行卷积，输出28*28*6的矩阵，2）然后使用2*2的最大池化，步长为2，最终输出14*14*6的矩阵。其中14为图片尺寸，6为信道数。

Layer2-卷积层：1）使用16个5*5*3的卷积核以步长1对上层输出进行卷积，输出10*10*16的矩阵，2）然后使用2*2的最大池化，步长为2，最终输出5*5*16的矩阵。

Layer3-全连接层：把上层输出的5*5*16矩阵展开成1*400的一维向量，以120*400的权重矩阵送入本层120个神经元，激活后输出。

Layer4-全连接层： 120->84，激活后输出

输出层：84 -> 10，然后softmax后输出。

1. 参数少

假如原始图片尺寸为100*100*3，假设使用全连接，即使第二层仅用100个神经元，那也已经产生了100*100*3*100 = 300w个参数，难以想象。

假设使用卷积层，使用10个10*10*3的卷积核，那就是只有3000个参数，而能输出的矩阵规模是91*91*10=81000

2. 参数少的原因

1）稀疏连接：卷积核扫描矩阵产生输出，这个过程就从“神经元连接”的角度看，输入的左上角只连着输出的左上角，右上角只连右上角，而非“全连接”，参数就会少很多。2）参数共享：这么稀疏的连接，还是使用了同一套参数，进一步减少了参数的量。

3. 参数共享的其它好处

如果图片上有一只猫，那么不管这个猫在图片的什么位置，都不改变“这是一张猫的照片”。使用参数共享时，相当于用同样的特征提取作用到整个图片的各个区域，适应平移不变性，增强鲁棒性。

以上是关于卷积神经网络的主要内容，如果未能解决你的问题，请参考以下文章

卷积层在神经网络中如何运算？

：卷积神经网络

卷积神经网络的卷积层如何提取特征？

卷积神经网络（CNN）之一维卷积二维卷积三维卷积详解

Tensorflow系列4：卷积神经网络--解决参数过多问题

卷积神经网络二维卷积层（conv-layer）