多通道(比方RGB三通道)卷积过程

Posted 2020-09-30 blfbuaa

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多通道(比方RGB三通道)卷积过程相关的知识，希望对你有一定的参考价值。

今天一个同学问卷积过程好像是对一个通道的图像进行卷积，比方10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的，输出的个数依旧是卷积核的个数。能够查看经常使用模型。比方lenet 手写体，Alex imagenet 模型，每一层输出feature map 个数就是该层卷积核的个数。

1、一通道单个卷积核卷积过程

技术分享

2、一通道多个卷积核卷积过程

一个卷积核得到的特征提取是不充分的。我们能够加入多个卷积核，比方32个卷积核，能够学习32种特征。

在有多个卷积核时，例如以下图所看到的：输出就为32个feature map

技术分享

3、多通道的多个卷积核

下图展示了在四个通道上的卷积操作。有两个卷积核，生成两个通道。当中须要注意的是，四个通道上每一个通道相应一个卷积核，先将w2忽略，仅仅看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以最后得到两个feature map。即输出层的卷积核核个数为 feature map 的个数。

技术分享

所以。在上图由4个通道卷积得到2个通道的过程中，參数的数目为4×2×2×2个。当中4表示4个通道。第一个2表示生成2个通道。最后的2×2表示卷积核大小。

以下是常见模型，理解一下每层feature map 个数。为上一层卷积核的个数

下图即为Alex的CNN结构图。须要注意的是。该模型採用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型參数分为2部分进行训练的。

在这里。更进一步，并行结构分为数据并行与模型并行。

数据并行是指在不同的GPU上，模型结构同样，但将训练数据进行切分。分别训练得到不同的模型，然后再将模型进行融合。

而模型并行则是，将若干层的模型參数进行切分，不同的GPU上使用同样的数据进行训练，得到的结果直接连接作为下一层的输入。

技术分享

上图模型的基本參数为：

输入：224×224大小的图片，3通道
第一层卷积：5×5大小的卷积核96个，每一个GPU上48个。
第一层max-pooling：2×2的核。
第二层卷积：3×3卷积核256个，每一个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
第二层全连接：4096维
Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量。学习到的向量经过其它模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

例如以下图所看到的，该结构与ImageNet的详细參数类似，所以仅仅解释一下不同的部分吧。

技术分享

上图中的结构。在最后仅仅有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。

在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样能够学习到局部的和全局的特征。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

以下讲一下，caffe中的实现。

技术分享