神经网络基础部件-卷积层详解
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了神经网络基础部件-卷积层详解相关的知识,希望对你有一定的参考价值。
前言
在全连接层构成的多层感知机网络中,我们要通过将图像数据展平成一维向量来送入模型,但这会忽略了每个图像的空间结构信息。理想的策略应该是要利用相近像素之间的相互关联性,将图像数据二维矩阵送给模型中学习。
卷积神经网络(convolutional neural network,CNN
)正是一类强大的、专为处理图像数据(多维矩阵)而设计的神经网络,CNN
的设计是深度学习中的一个里程碑式的技术。在 Transformer
应用到 CV
领域之前,基于卷积神经网络架构的模型在计算机视觉领域中占主导地位,几乎所有的图像识别、目标检测、语义分割、3D目标检测、视频理解等任务都是以 CNN
方法为基础。
卷积神经网络核心网络层是卷积层,其使用了卷积(convolution)这种数学运算,卷积是一种特殊的线性运算。另外,通常来说,卷积神经网络中用到的卷积运算和其他领域(例如工程领域以及纯数学领域)中的定义并不完全一致。
一,卷积
在理解卷积层之前,我们首先得理解什么是卷积操作。
卷积与傅里叶变换有着密切的关系。例如两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换,利用此一性质,能简化傅里叶分析中的许多问题。
1.1,卷积运算定义
为了给出卷积的定义, 这里从现实世界会用到函数的例子出发。
假设我们正在用激光传感器追踪一艘宇宙飞船的位置。我们的激光传感器给出 一个单独的输出 $x(t)$,表示宇宙飞船在时刻 $t$ 的位置。$x$ 和 $t$ 都是实值的,这意味着我们可以在任意时刻从传感器中读出飞船的位置。
现在假设我们的传感器受到一定程度的噪声干扰。为了得到飞船位置的低噪声估计,我们对得到的测量结果进行平均。显然,时间上越近的测量结果越相关,所 以我们采用一种加权平均的方法,对于最近的测量结果赋予更高的权重。我们可以采用一个加权函数 $w(a)$ 来实现,其中 $a$ 表示测量结果距当前时刻的时间间隔。如果我们对任意时刻都采用这种加权平均的操作,就得到了一个新的对于飞船位置的平滑估计函数 $s$ :
$$
s(t) = \\int x(a)w(t-a )da
$$
这种运算就叫做卷积(convolution
)。更一般的,卷积运算的数学公式定义如下:
$$
连续定义: ; h(x)=(f*g)(x) = \\int_-\\infty^\\infty f(t)g(x-t)dt \\tag1
$$
$$ 离散定义: ; h(x) = (f*g)(x) = \\sum^\\infty_t=-\\infty f(t)g(x-t) \\tag2 $$
以上卷积计算公式可以这样理解:
- 先对函数 $g(t)$ 进行反转(
reverse
),相当于在数轴上把 $g(t)$ 函数从右边褶到左边去,也就是卷积的“卷”的由来。 - 然后再把 $g(t)$ 函数向左平移 $x$ 个单位,在这个位置对两个函数的对应点相乘,然后相加,这个过程是卷积的“积”的过程。
1.2,卷积的意义
对卷积这个名词,可以这样理解:所谓两个函数的卷积($f*g$),本质上就是先将一个函数翻转,然后进行滑动叠加。在连续情况下,叠加指的是对两个函数的乘积求积分,在离散情况下就是加权求和,为简单起见就统一称为叠加。
因此,卷积运算整体来看就是这么一个过程:
翻转—>滑动—>叠加—>滑动—>叠加—>滑动—>叠加.....
多次滑动得到的一系列叠加值,构成了卷积函数。
那么,卷积的意义是什么呢?可以从卷积的典型应用场景-图像处理来理解:
- 为什么要进行“卷”?进行“卷”(翻转)的目的其实是施加一种约束,它指定了在“积”的时候以什么为参照。在空间分析的场景,它指定了在哪个位置的周边进行累积处理。
- 在图像处理的中,卷积处理的结果,其实就是把每个像素周边的,甚至是整个图像的像素都考虑进来,对当前像素进行某种加权处理。因此,“积”是全局概念,或者说是一种“混合”,把两个函数进行时间(信号分析)或空间(图像处理)上进行混合。
1.3,从实例理解卷积
一维卷积的实例有 “丢骰子” 等经典实例,这里不做展开描述,本文从二维卷积用于图像处理的实例来理解。
一般,数字图像可以表示为如下所示矩阵:
而卷积核 $g$ 也可以用一个矩阵来表示,如: $$ g = \\beginbmatrix &b_-1,-1 &b_-1,0 &b_-1,1 \\ &b_0,-1 &b_0,0 &b_0,1 \\ &b_1,-1 &b_1,0 &b_1,1 \\endbmatrix $$ 按照卷积公式的定义,则目标图片的第 $(u, v)$ 个像素的二维卷积值为: $$ (f * g)(u, v)=\\sum_i \\sum_j f(i, j)g(u-i, v-j)=\\sum_i \\sum_j a_i,j b_u-i,v-j $$ 展开来分析二维卷积计算过程就是,首先得到原始图像矩阵中 $(u, v)$ 处的矩阵: $$ f=\\beginbmatrix &a_u-1,v-1 &a_u-1,v &a_u-1,v+1\\ &a_u,v-1 &a_u,v &a_u,v+1 \\ &a_u+1,v-1 &a_u+1,v &a_u+1,v+1 \\endbmatrix $$ 然后将图像处理矩阵翻转(两种方法,结果等效),如先沿 $x$ 轴翻转,再沿 $y$ 轴翻转(相当于将矩阵 $g$ 旋转 180 度): $$ \\beginaligned g &= \\beginbmatrix &b_-1,-1 &b_-1,0 &b_-1,1\\ &b_0,-1 &b_0,0 &b_0,1 \\ &b_1,-1 &b_1,0 &b_1,1 \\endbmatrix => \\beginbmatrix &b_1,-1 &b_1,0 &b_1,1\\ &b_0,-1 &b_0,0 &b_0,1 \\ &b_-1,-1 &b_-1,0 &b_-1,1 \\endbmatrix \\ &= \\beginbmatrix &b_1,1 &b_1,0 &b_1,-1\\ &b_0,1 &b_0,0 &b_0,-1 \\ &b_-1,1 &b_-1,0 &b_-1,-1 \\endbmatrix = g^ \\endaligned $$ 最后,计算卷积时,就可以用 $f$ 和 $g′$ 的内积: $$ \\beginaligned f * g(u,v) &= a_u-1,v-1 \\times b_1,1 + a_u-1,v \\times b_1,0 + a_u-1,v+1 \\times b_1,-1 \\ &+ a_u,v-1 \\times b_0,1 + a_u,v \\times b_0,0 + a_u,v+1 \\times b_0,-1 \\ &+ a_u+1,v-1 \\times b_-1,1 + a_u+1,v \\times b_-1,0 + a_u+1,v+1 \\times b_-1,-1 \\endaligned $$
计算过程可视化如下动图所示,注意动图给出的是 $g$ 不是 $g$。
以上公式有一个特点,做乘法的两个对应变量 $a, b$ 的下标之和都是 $(u,v)$,其目的是对这种加权求和进行一种约束,这也是要将矩阵 $g$ 进行翻转的原因。上述计算比较麻烦,实际计算的时候,都是用翻转以后的矩阵,直接求矩阵内积就可以了。
1.4,图像卷积(二维卷积)
在机器学习和图像处理领域,卷积的主要功能是在一个图像(或某种特征) 上滑动一个卷积核(即滤波器),通过卷积操作得到一组新的特征。一幅图像在经过卷积操作后得到结果称为特征映射(Feature Map
)。如果把图像矩阵简写为 $I$,把卷积核 Kernal
简写为 $K$,则目标图片的第 $(i,j)$ 个像素的卷积值为:
$$
h(i,j) = (IK)(i,j)=\\sum_m \\sum_n I(m,n)K(i-m,j-n) \\tag3
$$
可以看出,这和一维情况下的卷积公式 2 是一致的。因为卷积的可交换性,我们也可以把公式 3 等价地写作:
$$
h(i,j) = (IK)(i,j)=\\sum_m \\sum_n I(i-m,j-n)K(m,n) \\tag4
$$
通常,下面的公式在机器学习库中实现更为简单,因为 $m$ 和 $n$ 的有效取值范围相对较小。
卷积运算可交换性的出现是因为我们将核相对输入进行了翻转(flip
),从 $m$ 增 大的角度来看,输入的索引在增大,但是卷积核的索引在减小。我们将卷积核翻转的唯一目 的是实现可交换性。尽管可交换性在证明时很有用,但在神经网络的应用中却不是一个重要的性质。相反,许多神经网络库会实现一个互相关函数(corresponding function
),它与卷积相同但没有翻转核:
$$
h(i,j) = (I*K)(i,j)=\\sum_m \\sum_n I(i+m,j+n)K(m,n) \\tag5
$$
互相关函数的运算,是两个序列滑动相乘,两个序列都不翻转。卷积运算也是滑动相乘,但是其中一个序列需要先翻转,再相乘。
1.5,互相关和卷积
互相关和卷积运算的关系,可以通过下述公式理解:
$$
\\beginaligned
Y &= W\\otimes X \\
&= \\textrot180(W) * X
\\endaligned
$$
其中 $\\otimes$ 表示互相关运算,$*$ 表示卷积运算,$\\textrot180(⋅)$ 表示旋转 180
度,$Y$ 为输出矩阵。从上式可以看出,互相关和卷积的区别仅仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积.
在神经网络中使用卷积是为了进行特征抽取,卷积核是否进行翻转和其特征抽取的能力无关(特别是当卷积核是可学习的参数时),因此卷积和互相关在能力上是等价的。事实上,很多深度学习工具中卷积操作其实都是互相关操作,用来**减少一些不必要的操作或开销(不反转 Kernal)**。
总的来说,
- 我们实现的卷积操作不是原始数学含义的卷积,而是工程上的卷积,但一般也简称为卷积。
- 在实现卷积操作时,并不会反转卷积核。
二,卷积层
2.1,卷积层定义
在全连接前馈神经网络中,如果第 $l$ 层有 $M_l$ 个神经元,第 $l-1$ 层有 $M_l-1$ 个 神经元,连接边有 $M_l\\times M_l-1$ 个,也就是权重矩阵有 $M_l\\times M_l-1$ 个参数。当 $M_l$ 和 $M_l-1$ 都很大时,权重矩阵的参数就会非常多,训练的效率也会非常低。
如果采用卷积来代替全连接,第 $l$ 层的净输入 $z^(l)$ 为第 $l-1$ 层激活值 $a^(l−1)$ 和卷积核 $w^(l)\\in \\mathbbR^K$ 的卷积,即 $$ z^(l) = w^(l)\\otimes a^(l−1) + b^(l) $$ 其中 $b^(l)\\in \\mathbbR$ 为可学习的偏置。
根据卷积层的定义,卷积层有两个很重要的性质:
- 局部连接:在卷积层(假设是第 $l$ 层)中的每一个神经元都只和下一层(第 $l − 1$ 层)中某个局部窗口内的神经元相连,构成一个局部连接网络。
- 权重共享:作为参数的卷积核 $w^(
以上是关于神经网络基础部件-卷积层详解的主要内容,如果未能解决你的问题,请参考以下文章