深度学习图像分类入门，从VGG16卷积神经网络开始

Posted 2022-12-05 武睿傲雪

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习图像分类入门，从VGG16卷积神经网络开始相关的知识，希望对你有一定的参考价值。

刚开始接触深度学习、卷积神经网络的时候非常懵逼，不知道从何入手，我觉得应该有一个进阶的过程，也就是说，理应有一些基本概念作为奠基石，让你有底气去完全理解一个庞大的卷积神经网络：

本文思路：

一、我认为学习卷积神经网络必须知道的几个概念：

1、卷积过程：

我们经常说卷积神经网络卷积神经网络，到底什么才是卷积？网络层卷积过程到底怎么实现？我们在这里借鉴了另一位博客大牛的动态图来给大家演示一下，

图作者文章在此：http://blog.csdn.net/silence1214/article/details/11809947

我们可以看到，卷积过程其实还是基于一个固定的矩阵，在另外一个矩阵不断一格一格扫过去的到的数值的和，（注意：这里的一格一格非常重要，因为涉及后面的概念：步长→我们不妨想一想当固定矩阵不是一格一格前进的时候，会发生什么呢？）产生的一个新的矩阵，我们以作为比较会发现：粉红色矩阵和绿色矩阵在根本上有很大不一样，

第一，卷积之后的维数降低了；第二，我们要想想为什么降维了？（思考：降低维度到底有没有规律？）

答案是有的：我们发现橙色的固定框为3*3，绿色是5*5，出来是三乘三；

所以规律可以得到：粉红色最后的卷积结果矩阵维度=绿色矩阵维数-橙色矩阵维数+1

（我们又应该思考：如果我不想最后减少维度，我只希望卷积，怎么办呢？）

2、两层之间的池化：

我们依然延用博客大牛的另一个动图（再次点赞做的精细准确！）

我们可以发现其实跟之前没什么不一样：还是以三个矩阵之间的运算，但是我们很容易发现，它并不是一行一行扫过去的，橙色矩阵维度是黄色矩阵的整数倍，所以池化的最终的结论是要把原来的维度减少到1/n.这是池化最根本的原理（当然也有特殊情况。）

（思考点：我们想象一下如果一个19*19的矩阵做池化，会是一种什么样的体验呢？我们不可以缩小整数倍！！答案会在后面的VGG16里面讲清楚，不急不急）

3、第三个知识点是步长的概念：

卷积核（后面讲到VGG16会介绍）移动的步长（stride）小于卷积核的边长（一般为正方行）时，变会出现卷积核与原始输入矩阵作用范围在区域上的重叠（overlap），卷积核移动的步长（stride）与卷积核的边长相一致时，不会出现重叠现象。

通俗一点其实就是：刚刚说的那个粉红色矩阵，他每一次移动多少格，格子就是步长！！

4、卷积核：

一个听起来很高大上的词语，我们依然用之前的基础来解释：通俗易懂：就是粉红色矩阵的个数！！因为有时候我们要提取的特征非常多非常广泛，所以需要我们用更多的矩阵来扫（多扫几遍），那么粉红色矩阵的个数就是卷积核个数。

5、Padding:

这个应该是最抽象的概念了：但是也不会特别难呢，就是我们在之前讲到第一点：卷积的时候，我抛下了一个问题：

（我们又应该思考：如果我不想最后减少维度，我只希望卷积，怎么办呢？）（现在知道括号的重要性了吧哈哈？）

现在我们来解决这个问题：比如：我们需要做一个300*300的原始矩阵，用一个3*3卷积核（粉红色矩阵）来扫，扫出来，按照之前公式，结果的矩阵应该是：298*298的矩阵，但是这样很难计算，减得也不多，反而增加我计算难度，还不如池化（pooling）来得干脆是吧！那我们就在300*300矩阵外面周围加一圈“0”，记住，是在外面外包一层“0”

重点是：这样的300*300就变成了302*302的矩阵，这样就可以完全避开卷积后那两层的抵消。

6、还有一个就是通道的概念：这个不算知识点，仅仅是一个常识词语，比如一张图片，有RGB三种颜色，对应三个灰度级别，也就是三个通道了：

更加抽象的图可以参照下面的结构：