卷积神经网络数学原理解析

Posted 2022-01-26 数据挖掘工程师

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了卷积神经网络数学原理解析相关的知识，希望对你有一定的参考价值。

本文将带你加深理解神经网络如何工作于CNNs。

原标题 | Gentle Dive into Math Behind Convolutional Neural Networks

作　者 | Piotr Skalski

翻　译 | 通夜（中山大学）、had_in（电子科技大学）

编　辑 | Pita

自动驾驶、智能医疗保健和自助零售这些领域直到最近还被认为是不可能实现的，而计算机视觉已经帮助我们达到了这些事情。如今，拥有自动驾驶汽车或自动杂货店的梦想听起来不再那么遥不可及了。事实上，我们每天都在使用计算机视觉——当我们用面部解锁手机或在社交媒体上发照片前使用自动修图。卷积神经网络可能是这一巨大成功背后最关键的构建模块。这一次，我们将加深理解神经网络如何工作于CNNs。出于建议，这篇文章将包括相当复杂的数学方程，如果你不习惯线性代数和微分，请不要气馁。我的目标不是让你们记住这些公式，而是让你们对下面发生的事情有一个直观的认识。

可视化和注释的完整源代码：

GitHub：https://github.com/SkalskiP/ILearnDeepLearning.py

介绍

过去我们已经知道被称为紧密连接的神经网络。这些网络的神经元被分成若干组，形成连续的层。每一个这样的神经元都与相邻层的每一个神经元相连。下图显示了这种体系结构的一个示例。

图1. 密集连接的神经网络结构

当我们根据一组有限的人工设计的特征来解决分类问题时，这种方法很有效。例如，我们根据足球运动员在比赛期间的统计数据来预测他的位置。然而，当处理照片时，情况变得更加复杂。当然，我们可以将每个像素的像素值作为单独的特征，并将其作为输入传递给我们的密集网络。不幸的是，为了让该网络适用于一张特定的智能手机照片，我们的网络必须包含数千万甚至数亿个神经元。另一方面，我们可以缩小我们的照片，但在这个过程中，我们会丢失一些有用的信息。我们立马意识到传统的策略对我们没有任何作用，我们需要一个新的有效的方法，以充分利用尽可能多的数据，但同时减少必要的计算和参数量。这就是CNNs发挥作用的时候了。

数字图像的数据结构

让我们先花一些时间来解释数字图像是如何存储的。你们大多数人可能知道它们实际上是由很多数字组成的矩阵。每一个这样的数字对应一个像素的亮度。在RGB模型中，彩色图像实际上是由三个对应于红、绿、蓝三种颜色通道的矩阵组成的。在黑白图像中，我们只需要一个矩阵。每个矩阵都存储0到255之间的值。这个范围是存储图像信息的效率(256之内的值正好可以用一个字节表达)和人眼的敏感度(我们区分有限数量的相同颜色灰度值)之间的折衷。

图2. 数字图像的数据结构

卷积

核卷积不仅用于神经网络，而且是许多其他计算机视觉算法的关键一环。在这个过程中，我们采用一个形状较小的矩阵(称为核或滤波器)，我们输入图像，并根据滤波器的值变换图像。后续的特征map值根据下式来计算，其中输入图像用f表示，我们的kernel用h表示，结果矩阵的行和列的索引分别用m和n表示。

图3. 核卷积的例子

将过滤器放置在选定的像素上之后，我们从kernel中提取每个相应位置的值，并将它们与图像中相应的值成对相乘。最后，我们总结了所有内容，并将结果放在输出特性图的对应位置。上面我们可以看到这样的操作在细节上是怎么实现的，但是更让人关注的是，我们通过在一个完整的图像上执行核卷积可以实现什么应用。图4显示了几种不同滤波器的卷积结果。

图4. 通过核卷积得到边缘[原图像：https://www.maxpixel.net/Idstein-Historic-Center-Truss-Facade-Germany-3748512]

有效卷积和相同卷积

如图3所示，当我们用3x3核对6x6的图像进行卷积时，我们得到了4x4特征图。这是因为只有16个不同的位置可以让我们把滤波器放在这个图片里。因为每次卷积操作，图像都会缩小，所以我们只能做有限次数的卷积，直到图像完全消失。更重要的是，如果我们观察卷积核如何在图像中移动，我们会发现位于图像边缘的像素的影响要比位于图像中心的像素小得多。这样我们就丢失了图片中包含的一些信息。通过下图，您可以知道像素的位置如何改变其对特征图的影响。

图5. 像素位置的影响

为了解决这两个问题，我们可以用额外的边框填充图像。例如，如果我们使用1px填充，我们将照片的大小增加到8x8，那么与3x3滤波器卷积的输出将是6x6。在实践中，我们一般用0填充额外的填充区域。这取决于我们是否使用填充，我们要根据两种卷积来判断-有效卷积和相同卷积。这样命名并不是很合适，所以为了清晰起见:Valid表示我们仅使用原始图像，Same表示我们同时也考虑原图像的周围边框，这样输入和输出的图像大小是相同的。在第二种情况下，填充宽度应该满足以下方程，其中p为填充宽度和f是滤波器维度(一般为奇数)。

步幅卷积

图6. 步幅卷积的例子

在前面的例子中，我们总是将卷积核每次移动一个像素。但是，步幅也可以看作卷积层超参数之一。在图6中，我们可以看到，如果我们使用更大的步幅，卷积看起来是什么样的。在设计CNN架构时，如果希望感知区域的重叠更少，或者希望feature map的空间维度更小，我们可以决定增加步幅。输出矩阵的尺寸——考虑到填充宽度和步幅——可以使用以下公式计算。

过渡到三维

空间卷积是一个非常重要的概念，它不仅能让我们处理彩色图像，更重要的是在单层中应用多个卷积核。第一个重要的原则是，过滤器和要应用它的图像必须具有相同通道数。基本上，这种方式与图3中的示例非常相似，不过这次我们将三维空间中的值与卷积核对应相乘。如果我们想在同一幅图像上使用多个滤波器，我们分别对它们进行卷积，将结果一个叠在一起，并将它们组合成一个整体。接收张量的维数(即我们的三维矩阵)满足如下方程:n-图像大小，f-滤波器大小，nc-图像中通道数，p-是否使用填充，s-使用的步幅，nf-滤波器个数。

图7. 三维卷积

卷积层

现在是时候运用我们今天所学的知识来构建我们的CNN层了。我们的方法和我们在密集连接的神经网络中使用的方法几乎是一样的，唯一的不同是这次我们将使用卷积而不是简单的矩阵乘法。正向传播包括两个步骤。第一步是计算中间值Z,这是利用输入数据和上一层权重W张量(包括所有滤波器)获得的卷积的结果,然后加上偏置b。第二步是将非线性激活函数的应用到获得的中间值上(我们的激活函数表示为g)。对矩阵方程感兴趣的读者可以在下面找到对应的数学公式。如果您不清楚其中的操作细节，我强烈推荐我的前一篇文章，在那篇文章中，我详细讨论了紧密连接的神经网络的原理。顺便说一下，在下图中你可以看到一个简单的可视化，描述了方程中使用的张量的维数。

图8. 张量维度

连接剪枝和参数共享

在文章的开头，我提到密集连接的神经网络不擅长处理图像，这是因为需要学习大量的参数。既然我们已经理解了卷积是什么，让我们现在考虑一下它是如何优化计算的。在下面的图中，以稍微不同的方式显示了二维卷积，以数字1-9标记的神经元组成了输入层，并接受图像像素亮度值，而A - D单元表示计算出的特征map元素。最后，I-IV是需要经过学习的卷积核的值。

图9. 连接剪枝和参数共享

现在，让我们关注卷积层的两个非常重要的属性。首先，你可以看到，并不是所有连续两层的神经元都相互连接。例如，神经元1只影响A的值。其次，我们看到一些神经元共享相同的权重。这两个性质都意味着我们需要学习的参数要少得多。顺便说一下，值得注意的是，滤波器中的一个值会影响特征map中的每个元素——这在反向传播过程中非常重要。

卷积层反向传播

任何尝试过从头编写自己的神经网络代码的人都知道，完成正向传播还没有完成整个算法流程的一半。真正的乐趣在于你想要进行反向传播得到时候。现在，我们不需要为反向传播这个问题所困扰，我们可以利用深度学习框架来实现这一部分，但是我觉得了解底层是有价值的。就像在密集连接的神经网络中，我们的目标是计算导数，然后用它们来更新我们的参数值，这个过程叫做梯度下降。

在我们的计算中需要用到链式法则——我在前面的文章中提到过。我们想评估参数的变化对最终特征map的影响，以及之后对最终结果的影响。在我们开始讨论细节之前，让我们就对使用的数学符号进行统一——为了让过程更加简化，我将放弃偏导的完整符号，而使用如下所示的更简短的符号来表达。但记住，当我用这个符号时，我总是指的是损失函数的偏导数。

图10. 单卷积层的输入和输出的正向和反向传播

我们的任务是计算dW[l]和db[l]——它们是与当前层参数相关的导数，以及dA[l -1]的值——它们将被传递到上一层。如图10所示，我们接收dA[l]作为输入。当然，张量dW和W、db和b以及dA和A的维数是相同的。第一步是通过对输入张量的激活函数求导得到中间值dZ[l]。根据链式法则，后面将使用这个操作得到的结果。

现在，我们需要处理卷积本身的反向传播，为了实现这个目的，我们将使用一个矩阵运算，称为全卷积，如下图所示。注意，在这个过程中，对于我们使用卷积核，之前我们将其旋转了180度。这个操作可以用下面的公式来描述，其中滤波器用W表示，dZ[m,n]是一个标量，属于上一层偏导数。

图11. 全卷积

池化层

除了卷积层，CNNs还经常使用所谓的池化层。池化层主要用于减小张量的大小和加速计算。这种网络层很简单——我们需要将图像分割成不同的区域，然后对每个部分执行一些操作。例如，对于最大值池化层，我们从每个区域中选择一个最大值，并将其放在输出中相应的位置。在卷积层的情况下，我们有两个超参数——滤波器大小和步长。最后一个比较重要的一点是，如果要为多通道图像进行池化操作，则应该分别对每个通道进行池化。

图12. 最大值池化的例子

池化层反向传播

在本文中，我们将只讨论最大值池化的反向传播，但是我们将学习的规则只需要稍加调整就可以适用于所有类型的池化层。由于在这种类型的层中，我们没有任何必须更新的参数，所以我们的任务只是适当地分布梯度。正如我们所记得的，在最大值池化的正向传播中，我们从每个区域中选择最大值，并将它们传输到下一层。因此，很明显，在反向传播过程中，梯度不应该影响矩阵中没有包含在正向传播中的元素。实际上，这是通过创建一个掩码来实现的，该掩码可以记住第一阶段中使用的值的位置，稍后我们可以使用该掩码来传播梯度。

图13. 最大值池化的反向传播

参考：https://towardsdatascience.com/gentle-dive-into-math-behind-convolutional-neural-networks-79a07dd44cf9

推荐阅读

LightGBM 原理、代码最全解读！
15种顶级分析思维模型。
从梯度下降到 Adam！一文看懂各种神经网络优化算法
图解 NumPy，理解数组最形象的教程！

收藏 | 卷积神经网络的数学原理

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：深度学习这件小事

计算机视觉技术在日常生活中有着非常普遍的应用：发朋友圈之前自动修图、网上购物时刷脸支付……在这一系列成功的应用背后，卷积神经网络功不可没。本文将介绍卷积神经网络背后的数学原理。

在自动驾驶、医疗以及零售这些领域，计算机视觉让我们完成了一些直到最近都被认为是不可能的事情。今天，自动驾驶汽车和无人商店听起来不再那么梦幻。事实上，我们每天都在使用计算机视觉技术——我们用自己的面孔解锁手机，将图片上传到社交网络之前进行自动修图……卷积神经网络可能是这一巨大成功背后的关键组成模块。这次，我们将要使用卷积神经网络的思想来拓宽我们对神经网络工作原理的理解。打个预防针，本文包含相当复杂的数学方程，但是，你也不必为自己不喜欢线性代数和微积分而沮丧。我的目标并不是让你记住这些公式，而是为你提供一些关于底层原理的直觉认知。

简介

过去我们接触到了密集连接的神经网络。那些神经网络中，所有的神经元被分成了若干组，形成了连续的层。每个这样的单元都与相邻层的每一个单独的神经元相连接。下图所示的是这样一个架构。

图 1：密集连接的神经网络架构

当我们基于一个有限的固定特征集合解决分类问题的时候，这种方法是很奏效的——例如，我们根据足球运动员在比赛中记录的统计数据来预测他的位置。但是，当处理照片的时候，问题变得更加复杂。当然，我们可以把每个像素的亮度视作一个单独的特征，然后将它作为密集网络的输入传递进去。不幸的是，为了让它能够应付一张典型的智能手机照片，我们的网络必须包含数千万甚至上亿的神经元。另一方面，虽然我们可以将照片缩小，但是我们也会在这个过程中损失有价值的信息。所以我们马上就会发现，传统的策略是没有用的——我们需要一种新的聪明的方法，来尽可能多的利用数据，但同时还要减少必需的计算量和参数。这就是 CNN 发挥作用的时候了。

数字照片的数据结构

让我们先花少许时间解释一下数字图像的存储方式。大多数人可能意识到了，图像实际上就是巨大的数字矩阵。每个数字代表的是一个单独像素的亮度。在 RGB 模型中，彩色图片是由 3 个这样的矩阵组成的，每个矩阵对应着 3 个颜色通道（红、绿、蓝）中的一个。在黑白图像中，我们仅使用一个矩阵。每个矩阵都存储着 0 到 255 的数值。这个数值范围是图像存储信息的效率（256 个数值刚好对应一个字节）和人眼敏感度之间的折中（我们仅能区分同种颜色的几种有限色度）。

图 2. 数字图像的数据结构

卷积

核卷积并不仅仅用在卷积神经经网络中，它也是很多其他计算机视觉算法的关键元素。这个过程是这样的：我们有一个小的数字矩阵（称作卷积核或滤波器），我们将它传递到我们的图像上，然后基于滤波器的数值进行变换。后续的特征图的值要通过下面的公式计算，其中输入图像被记作 f，我们的卷积核为 h。计算结果的行列索引分别记为 m 和 n。

图 3. 核卷积的例子

在将我们的滤波器放在选中的像素上之后，我们将卷积核中的每一个数值和图像中对应的数值成对相乘。最后将乘积的结果相加，然后把结果放在输出特征图的正确位置上。我们在上边的动画中可以以一个微观的形式看到这个运算的过程，但是更有趣的是我们在整幅图像上执行这个运算得到的结果。图 4 展示了用数个滤波器做卷积的结果。

图 4. 用卷积核寻找边缘

Valid 和 Same 的卷积

如图 3 所示，当我们在用 3x3 的卷积核在 6x6 的图像上执行卷积时，我们得到了 4x4 的特征图。这是因为在我们的图像里面，只有 16 个独特的位置来放置卷积核。由于我们的图像的尺寸在每次卷积的时候都会收缩，在图像完全消失之前，我们只能做有限次的卷积。此外，如果我们注意一下卷积核是如何在图像上移动的，我们会发现，边缘的像素会比中央的像素影响更小。这样的话我们会损失图片中包含的一些信息，你可以在下图看到，像素的位置是如何改变它对特征图的影响的。

图 5. 像素位置的影响

为了解决这两个问题，我们可以使用一个额外的边界来填充图像。例如，如果我们使用 1 像素的填充，我们将图像的尺寸增大到了 8x8，这样，3x3 的滤波器的输出将会成为 6x6。通常在实际中我们用 0 来做额外的填充。根据我们是否使用填充，我们会进行两种类型的卷积——Valid 和 Same。命名相当令人费解，所以在这里解释一下：valid 代表我们使用的是原始图像，same 代表我们在图像周围使用了边界，因此输入和输出的图像大小相同。在第二种情况下，扩充的宽度应该满足下面的方程，其中 p 是 padding（填充），f 是滤波器的维度（通常是奇数）。

跨步卷积

图 6. 跨步卷积的例子

在之前的例子中，我们总是将卷积核移动一个像素。但是，步长也可以看做是卷积层的一个参数。在图 6 中，我们可以看到，如果我们使用更大的步长，卷积会成为什么样子。在设计 CNN 结构时，如果我们想让接受域有更少的重叠或者想让特征图有更小的空间维度，那么我们可以决定增大步长。考虑到扩充和跨步，输出矩阵的维度可以使用下面的公式计算：

转换到第三个维度

立体卷积是一个非常重要的概念，它不仅让我们能够处理彩色图像，而且更重要的是，可以在一个单独的层上使用多个滤波器。最重要的规则是，滤波器和你想在其上应用滤波器的图像必须拥有相同的通道数。基本上，我们继续使用和图 3 类似的示例，尽管我们这次从第三个维度让矩阵中的数值对相乘。如果我们想在同一张图像上应用多个滤波器，我们会为每个滤波器独立地计算卷积，然后将计算结果逐个堆叠，最后将他们组合成一个整体。得到的张量（3D 矩阵可以被称作张量）满足下面的方程，其中：n 是图像的大小，f 是滤波器的大小，n_c 是图像中的通道数，p 是所用的填充，s 是所用的步长，n_f 是滤波器的数量。

图 7. 立体卷积

卷积层

使用我们今天所学内容构造一个卷积层的时间到了。我们的方法几乎与用在密集连接神经网络上的方法相同，唯一的差别就是不使用简单的矩阵相乘，这一次我们将会使用卷积。前向传播包含两个步骤。第一步是计算中间结果 Z，它是由前一层的输入数据与张量 W（包含滤波器）的卷积结果，加上偏置项 b 得到的。第二步是给我们的中间结果应用一个非线性的激活函数（我们的激活函数记作 g）。矩阵方程的爱好者将在下面找到合适的数学公式。在下面的插图中，你可以看见一个小型的可视化，它描述了我们方程中用到的张量的维度。

图 8. 张量维度

连接剪切和参数共享

在本文开始，由于需要学习的参数数量巨大，我提到密集连接神经网络在处理图像方面是很弱的。既然我们已经了解了关于卷积的所有内容，让我们来考虑一下它是如何优化计算的吧。在下图中，2D 卷积以一种稍微不同的方式进行了可视化——用数字 1-9 标记的神经元组成接收后续像素亮度的输入层，A-D 这 4 个单元代表的是计算得到的特征图元素。最后但同等重要的是，I-IV 是卷积核中的数值——它们必须被学习到。

图 9. 连接剪切和参数共享

现在，让我们聚焦于卷积层的两个重要属性。第一，你可以看到，连续两层中，并不是所有的神经元都是彼此相连的。例如，单元 1 仅仅会影响到 A 的值。第二，我们发现，一些神经元会共享相同的权重。这两个属性都意味着我们要学习的参数数量要少很多。顺便说一下，值得注意的是，滤波器中的每个值都会影响到特征图中的每个元素——这在反向传播中是特别重要的。

卷积层反向传播

任何一个曾经试图从零编写自己的神经网络的人都知道，前向传播远远不到成功的一半。真正有趣的是当你开始反向传播的时候。现在，我们不必在反向传播上花心思——深度学习框架都为我们做好了，但是我认为，了解背后发生的东西是很值得的。就像在密集连接神经网络中一样，我们的目标是在一个叫做梯度下降的过程中计算导数，然后使用它们来更新参数值。

在计算中我们会使用链式法则——这个我在之前的文章中提到过。我们想要评估参数的变化对结果特征图的影响，然后评估它对最终结果的影响。在开始进入细节之前，让我们来统一一下将会用到的数学符号——为了让事情变得容易一些，我会放弃偏导数的完整符号，而会使用下面的简写符号。但是请记住，这个符号始终代表代价函数的偏导数。

图 10. 一个卷积层在前向和反向传播中的输入和输出数据

我们的任务是计算 dW^[l] 和 db^[l]——它们是与当前层的参数相关的导数，还要计算 dA^[ l -1]，它们会被传递到之前的层。如图 10 所示，我们以 dA^[ l ] 为输入。当然，这些对应张量的维度都是相同的，dW 和 W，db 和 b，以及 dA 和 A。第一步就是通过在我们的输入张量上应用我们的激活函数的导数，得到中间值 dZ^[l]。根据链式法则，这个运算的结果在后面会被用到。

现在，我们需要处理卷积神经网络自身的反向传播，为了达到这个目的，我们会使用一个叫做全卷积的矩阵运算——见下图。请注意，我们在这里使用的卷积核会提前旋转 180°。这个运算可以通过下面的公式描述，其中的滤波器记作 W，dZ[m,n] 是一个标量，它属于从前一层得到的偏导数。

图 11. 全卷积

池化层

除了卷积层，CNN 通常会用到所谓的池化层。它们最早被用来减小张量的大小以及加速运算。这些层是比较简单的——我们需要将我们的图像分成不同的区域，然后在每一个部分上执行一些运算。例如，对 Max Pool 层而言，我们会选择每个区域的最大值，并将它放到对应的输出区域。与卷积层的情况一样，我们有两个可用的超参数——滤波器大小和步长。最后但同样重要的一点是，如果你对一个多通道的图像执行池化操作，那么每一个通道的池化应该单独完成。

图 12. 最大池化（max pooling）的例子

池化层反向传播

我们在这篇文章中只讨论最大池化反向传播，但是我们学到的规则是适用于所有类型的池化层的——只需要做微小的调整即可。因为在这种层中，我们没有任何必须更新的参数，所以我们的任务就是合适地分配梯度。我们记得，在最大池化的前向传播中，我们选择的是每个区域的最大值，并将它传递到了下一层。所以在反向传播中也是很清晰的，梯度不应该影响前向传播中不包含的矩阵的元素。实际上，这是通过创建一个掩膜来完成的，这个掩膜记住了前一阶段数值的位置，我们可以在后面转移梯度的时候用到。