pytorch中的train.eval() 与 with torch.no_grad()的使用

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pytorch中的train.eval() 与 with torch.no_grad()的使用相关的知识，希望对你有一定的参考价值。

参考技术A 一、train.eval(),用在模型的测试阶段，目的是冻结normalization、dropout层的作用，直接使用其结果，不再进行重新的计算。

二、在神经网络结构中，tenor的计算操作，默认是要进行计算图的构建的，为了不部分内容不进行计算图的构建，不进行反向传播操作，需要使用with torch.no_grad()：进行内容的强制。可以看下两种使用的区别：

Pytorch学习2020春-1-线性回归

线性回归

主要内容包括：

线性回归的基本要素
线性回归模型从零开始的实现
线性回归模型使用pytorch的简洁实现

线性回归的基本要素

模型

为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:
[ price=w_{area}*area+w_{age}*age+b ]

数据集

我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里，该数据集被称为训练数据集（training data set）或训练集（training set），一栋房屋被称为一个样本（sample），其真实售出价格叫作标签（label），用来预测标签的两个因素叫作特征（feature）。特征用来表征样本的特点。

损失函数

在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。它在评估索引为 ??的样本误差的表达式为
[ l^{(i)}(w,b)=frac{1}{2}(hat y^{(i)}-y^{(i)})^2,L(mathbf{w},b)=frac{1}{n}sum_{i=1}^{n}l^{(i)}(mathbf{w},b)=frac{1}{n}sum_{i=1}^{n}frac{1}{2}(mathbf{w}^ opmathbf{x}^{(i)}-y^{(i)}+b)^2=frac{1}{2n}sum_{i=1}^{n}(mathbf{w}^ opmathbf{x}^{(i)}-y^{(i)}+b)^2 ]
此处的(mathbf{w}^ opmathbf{x}^{(i)})是两个矩阵相乘，向量点积可以用行矩阵乘以列矩阵来实现

优化函数 - 随机梯度下降

当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

插曲：什么是梯度下降？

大多数机器学习或者深度学习算法都涉及某种形式的优化。优化指的是改变 $技术图片$ （此处x是一个向量）以最小化或最大化某个函数 $技术图片$ 的任务。我们通常以最小化 $技术图片$ 指代大多数最优化问题。最大化可经由最小化算法最小化 $技术图片$ 来实现。

我们把要最小化或最大化的函数称为目标函数或准则。当我们对其进行最小化时，我们也把它称为代价函数、损失函数或误差函数。

下面，我们假设一个损失函数为 $技术图片$ ，其中 $技术图片$ 然后要使得最小化它。

注意：这里只是假设，不用知道这个目标函数就是平方损失函数等等，然后肯定有人问既然要最小化它，那求个导数，然后使得导数等于0求出不就好了吗？Emmmm...是的，有这样的解法，可以去了解正规方程组求解。说下这里不讲的原因，主要是那样的方式太难求解，然后在高维的时候，可能不可解，但机器学习或深度学习中，很多都是超高维的，所以也一般不用那种方法。总之，梯度下降是另一种优化的不错方式，比直接求导好很多。

什么是梯度？

梯度概念是建立在偏导数与方向导数概念基础上的。所谓偏导数，简单来说是对于一个多元函数，选定一个自变量并让其他自变量保持不变，只考察因变量与选定自变量的变化关系。数学上说，是指对于多元函数(y=f(x_1,x_2,...x_n))，假设其偏导数都存在，则该函数共有n个偏导数，可以表示为：
[ {f_{{x_1}}} = {{partial y} over {partial {x_1}}},{f_{{x_2}}} = {{partial y} over {partial {x_2}}}...{f_{{x_n}}} = {{partial y} over {partial {x_n}}} ]
偏导数只能表示多元函数沿某个坐标轴方向的导数，如对于二元函数(z=x^2+y^2;,;{{partial z} over {partial x}} = 2x)表示函数沿X轴方向的导数，而({{partial z} over {partial y}} = 2y)表示函数沿Y轴方向的导数。

除开沿坐标轴方向上的导数，多元函数在非坐标轴方向上也可以求导数，这种导数称为方向导数。很容易发现，多元函数在特定点的方向导数有无穷多个，表示函数值在各个方向上的增长速度。一个很自然的问题是：在这些方向导数中，是否存在一个最大的方向导数，如果有，其值是否唯一？为了回答这个问题，便需要引入梯度的概念。

一般来说，梯度可以定义为一个函数的全部偏导数构成的向量(这一点与偏导数与方向导数不同，两者都为标量)。一般将函数f的梯度记为(?f)

定理：如果函数z=f(x,y)在点p(x,y)是可微分的，函数的增量可以表示为
[ f(x+Delta x,y+Delta y)-f(x,y)=frac{part f}{part x}Delta x+frac{part f}{part y}Delta y+o( ho) ]
两边同除以Rho可以得到
[ frac{f(x+Delta x,y+Delta y)-f(x,y)}{ ho}=frac{part f}{part x}frac{Delta x}{ ho}+frac{part f}{part y}frac{Delta y}{ ho}+frac{o( ho)}{ ho} ]
同时取rho趋于零的极限
[ limlimits_{ ho ightarrow 0}frac{f(x+Delta x,y+Delta y)-f(x,y)}{ ho}=limlimits_{ ho ightarrow 0}(frac{part f}{part x}frac{Delta x}{ ho}+frac{part f}{part y}frac{Delta y}{ ho}+frac{o( ho)}{ ho})方向向量：frac{part f}{part l}=frac{part f}{part x}cos heta+frac{part f}{part y}sin heta ]
可知，这个关于theta的函数最大值在特殊点取到，这时方向正好是x方向梯度和y方向梯度向量的和向量方向

梯度下降：我们知道曲面上方向导数的最大值的方向就代表了梯度的方向，因此我们在做梯度下降的时候，应该是沿着梯度的反方向进行权重的更新，可以有效的找到全局的最优解。这个 $技术图片$ 的更新过程可以描述为

续：

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。它的算法很简单：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch），然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

学习率: ??η代表在每次优化中，能够学习的步长的大小
批量大小: B是小批量计算中的批量大小batch size

总结一下，优化函数的有以下两个步骤：

(i)初始化模型参数，一般来说使用随机初始化；
(ii)我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。

以上是关于pytorch中的train.eval() 与 with torch.no_grad()的使用的主要内容，如果未能解决你的问题，请参考以下文章