深度学习入门基础CNN系列——感受野和多输入通道多输出通道以及批量操作基本概念

Posted 心无旁骛~

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习入门基础CNN系列——感受野和多输入通道多输出通道以及批量操作基本概念相关的知识,希望对你有一定的参考价值。

本篇文章主要讲解卷积神经网络中的感受野和通道的基本概念,适合于准备入门深度学习的小白,也可以在学完深度学习后将其作为温习。

如果对卷积计算没有概念的可以看本博主的上篇文章深度学习入门基础CNN系列——卷积计算

一、感受野(receptive field)

这里先给出概念,感受野:在卷积神经网络CNN中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive field)。
输出特征图上每个点的数值,是由输入图片上大小为 k h × k w k_h\\times k_w kh×kw的区域的元素与卷积核对应每个元素相乘再相加得到的,所以输入图像上 k h × k w k_h\\times k_w kh×kw区域内每个元素数值的改变,都会影响输出点的像素值。==我们将这个区域叫做输出特征图上对应点的感受野。==感受野内每个元素数值的变动,都会影响输出点的数值变化。比如 3 × 3 3\\times3 3×3卷积对应的感受野大小就是 3 × 3 3\\times3 3×3,如下图所示:

而通过两层 3 × 3 3\\times3 3×3卷积之后,感受野的大小将会增加到 5 × 5 5\\times5 5×5,如下图所示:

因此,当增加卷积网络深度的同时,感受野将会增大,输出特征图中的一个像素点将会包含更多的图像语义信息。

二、多输入通道、多输出通道和批量操作

前面几篇文章的卷积计算过程比较简单,实际应用时,处理的问题要复杂的多。例如:对于彩色图片有RGB三个通道,需要处理多输入通道的场景。输出特征图往往也会具有多个通道,而且在神经网络的计算中常常是把一个批次的样本放在一起计算,所以卷积算子需要具有批量处理多输入和多输出通道数据的功能,下面将分别介绍这几种场景的操作方式。

2.1 多输入通道场景

在上面的例子中,卷积层的数据是一个2维的数组,但实际上一张图片往往含有RGB三个通道,要计算卷积的输出结果,卷积核的形式也会发生改变,假设输入图片的通道数为 C i n C_in Cin,输入数据的形式是 C i n × H i n × W i n C_in\\times H_in\\times W_in Cin×Hin×Win,计算过程如下图所示。

步骤如下:

  1. 对每个通道分别设计一个2维数组作为卷积核,卷积核数组的形状为 C i n × K h × K w C_in\\times K_h \\times K_w Cin×Kh×Kw
  2. 对任意一个通道 C i n ∈ [ 0 , C i n ) C_in \\in [0,C_in) Cin[0,Cin),分别用大小为 k h × k w k_h\\times k_w kh×kw的卷积核在大小为 H i n × W i n H_in\\times W_in Hin×Win的二维数组上做卷积。
  3. 将这 C i n C_in Cin个通道的计算结果相加,得到的是一个形状为 H o u t × W o u t H_out\\times W_out Hout×Wout的二维数组。

2.2 多输出通道场景

一般来说,卷积操作的输出特征图也会具有多个通道 C o u t C_out Cout,这时候我们需要设计 C o u t C_out Cout个维度为 C i n × k h × k w C_in ×k_h ×k_w Cin×kh×kw的卷积核,卷积核数组的维度是 C o u t × C i n × k h × k w C_out\\times C_in\\times k_h \\times k_w Cout×Cin×kh×kw,如下图所示:

步骤如下:

  1. 将任意一输出通道 C o u t ∈ [ 0 , C o u t ] C_out\\in[0,C_out] Cout[0,Cout],分别使用上面描述的形状为 C i n × k h × k w C_in ×k_h ×k_w Cin×kh×kw的卷积核对输入图片进行卷积。
  2. 对这 C o u t C_out Cout个形状为 H o u t × W o u t H_out\\times W_out Hout×Wout

说明:
通常将卷积核的输出通道数叫做卷积核的个数。

2.3 批量操作

在卷积神经网络的计算中,通常将多个样本放在一起形成一个mini-batch进行批量操作,即输入数据的维度是 N × C i n × H i n × W i n N\\times C_in\\times H_in\\times W_in N×Cin×Hin×Win。由于会对每张图片使用同样的卷积核进行卷积操作,卷积核的维度与上面多输出通道的情况一样,仍然是 C o u t × C i n × k h × k w C_out\\times C_in\\times k_h \\times k_w Cout×Cin×kh×kw,输出特征图的维度是 N × C o u t × H o u t × W o u t N\\times C_out \\times H_out \\times W_out N×Cout×Hout×Wout,如下图所示:

附:
深度学习入门基础CNN系列——填充(padding)与步幅(stride)
深度学习入门基础CNN系列——卷积计算

以上是关于深度学习入门基础CNN系列——感受野和多输入通道多输出通道以及批量操作基本概念的主要内容,如果未能解决你的问题,请参考以下文章

机器学习-卷积神经网络CNN中的单通道和多通道图片差异

CNN卷积层里的多输入多输出通道channel 动手学深度学习v2 pytorch

基于多通道卷积神经网络的数字图像识别植物病害

深度学习卷积神经网络(CNN)简介(入门级好文)

深度学习基础一文读懂卷积神经网络(Convolutional Neural Networks, CNN)

深度学习入门基础二简单理解 Transformer