斯坦福CS231n—深度学习与计算机视觉----学习笔记课时8&&9

Posted 2020-09-13 草莓鲍鲍

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了斯坦福CS231n—深度学习与计算机视觉----学习笔记课时8&&9相关的知识，希望对你有一定的参考价值。

课时8 反向传播与神经网络初步（上）

反向传播在运算连路中，这是一种通过链式法则来进行递推的计算过程，这个链路中的每一个中间变量都会对最终的损失函数产生影响。

链式法则通常包含两部分，局部梯度和后一层的梯度相乘

前向和反向花费的时间是基本一样的。

大的函数也可以直接视作一个整体计算梯度

当局部梯度非常容易求得时，你可以把这部分表达式看作一整个S门

加法：梯度分配器；所以无论何时当你有一个加法运算时，他会分配相等的梯度值。

最大值门：一个梯度路由，他的工作方式是，认为比较大的输入梯度为1，比较小的梯度为0，直观的理解就是比较小的输入对输出没有影响。所以最受你只会得到比较大输入值的梯度，这就是最大值门是梯度路由的原因。

乘法：梯度转换器

向前传播/向后传播：主要思想就是遍历网络中所有的运算门，并按照正确的逻辑顺序进行排列。这意味着所有的输入值在运算之前要知道这些标注信息

事实上一个网络对象就是对这些门进行简单封装，以后也会发现门也被称作层。

在前向传播中，我们按照要求计算结果；在反向传播中，我们最终要求得的是整个损失函数关于各个变量的梯度。

一般来说在反向传播和构建这些时都需要那些数值，所以当你真正学习这个网络，每一个门都需要记住输入值和其他出现过得中间微分值。所以一定记住要在前向传播时候记住这些值，因为在反向传播中可能会用到某些变量。如果你不进行反向传播，你可以删除很多东西。

Torch实际上是一系列层的巨大集合，也就是运算门的集合。深度学习网络框架实际上是包含一系列层并且记录所有层之间联系的计算图

我们将张量看做一个n维数组，我们用常数将其标量化

课时9 反向传播与神经网络初步（下）

在反向传播中，使用链式求导法则计算梯度是最关键的。

对于每次更新，我们都要进行一次完整的前馈和反馈。当你想要进行更新，你需要梯度，所以你需要前馈你的样本。然后马上进行反向求导，如此你得到梯度。然后根据求得的梯度进行权值微调，来完成权值更新。可以这么说，通过前馈得到损失，通过反馈得到梯度，通过对梯度的使用来完成权值更新。这就是神经网络的训练过程中，内部变化前馈、反馈、更新、前馈、反馈、更新。。。

我们不需要求出完整的雅各比矩阵。每个输入影响每个输出。