卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征相关的知识，希望对你有一定的参考价值。

参考技术A

卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征

图像识别问题本质上就是分类问题，比如我们要区分猫和狗，那么我们就需要构建一个模型，将照片丢进去后，模型能输出猫或者狗的概率有多大。在做图像识别时首要的就是要提取图片的特征，那么如何提取图片的特征呢？前面讲到了前向全连接网络，我们可以尝试用前向全连接网络提取。假设图片的像素是100*100，如果如片是彩色的，每个像素都有RGB三种颜色的数值。因此，一张图片是有一个三维向量构成的，一维是长100，一维是宽100，还有一维是R、G、B 3个通道（channels）。把这个三维向量拉直作为一个一维向量，长度就是100*100*3。

我们在区分一张图片时，我们观察的往往是图片的局部的、最重要的特征。 比如图片上是一只鸟，我们可能通过嘴巴、眼睛、爪子等就可以判断出是一只鸟了。因此，输入层的每一个神经元没有必要看图片的全局，只需要看一个局部就行了。

在两张不同的图片上，同一个特征区域可能处于不同位置。 比如鸟嘴的局部特征区域在下面这两张图上就处在不同的位置上。那么如何才能让两个不同的神经元在看到这两个不同的感受野时，能产生一致的特征值呢？

对上面的内容进行一个总结：
（1）我们设置一个局部感受野，假设感受野的大小为W*H*C，其中W表示感受野的宽度，H表示感受野的高度，C表示感受野的通道数。那么对应的神经元的参数的个数就为：W*H*C个权值加1个偏置。在卷积神经网络中，我们称这样一个神经元为一个 滤波器（filter） 。
（3）我们通过滑动的方式让感受野铺满整个图片，假设图片的尺寸是W1*H1*C，滑动步长为S，零填充的数量为P。假设感受野的个数是W2*H2，其中，
(4)我们让所有感受野的观测滤波器参数进行共享，即相当于一个滤波器通过滑动扫描的方式扫描了所有感受野。
（5）我们设置多个滤波器，假设滤波器的个数为K，这K个滤波器都通过滑动扫描的方式扫过整个图片。此时参数的个数为：（W*H*C+1）*K。
（6）由于每个滤波器每经过一个感受野都会进行一次计算输出一个值，所以输出的维度为：W2*H2*K。我们将这个输出称为特征图，所以特征图宽度为W2，高度为H2，通道数C2=K。
举个例子： 假设某个图片的大小是100*100*3，设置滤波器的大小为3*3*3，滤波器的个数为64，设置步长S=1，设置零填充的数量为P=0。那么卷积神经网络的参数为，相比前向全连接个参数，参数的个数缩小了几个数量级。
输出特征图的宽度和高度均为，输出特征图的通道数为，所以输出特征图的维度为98*98*64。
如果在上面输出的基础上再叠加一层卷积神经网络，滤波器的设置宽和高可以不变，但是通道数不再是3了，而是变成64了，因为输入特征图的通道数已经变64了。假设滤波器的大小为3*3*64，滤波器的个数为32，设置步长S=1，设置零填充的数量为P=0。可以计算出来，新的输出特征图的维度是96*96*32。

以上就是卷积神经网络（CNN）的解析。但是CNN一般不是单独用的，因为一般提取图片的特征是为了分类，还需要进一步处理，常见的形式如下图所示。

卷积神经网络(Convolutional Neural Network, CNN)

概述：

结构：

卷积层：

以上是关于卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征的主要内容，如果未能解决你的问题，请参考以下文章

卷积神经网络用于视觉识别Convolutional Neural Networks for Visual Recognition

卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征

深度学习基础一文读懂卷积神经网络(Convolutional Neural Networks, CNN)

卷积神经网络Convolutional Neural Network(CNNs/ConvNets)

文献翻译Fully Convolutional Networks for Semantic Segmentation全卷积神经网络

一维与二维时间卷积网络深解(Temporal Convolutional Network,TCN)