神经网络权重衰减（weight-decay）

Posted 2021-12-14 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了神经网络权重衰减（weight-decay）相关的知识，希望对你有一定的参考价值。

权重衰减（weight-decay）

权重衰减

权重衰减

上一节中我们观察了过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。本节介绍应对过拟合问题的常用方法：权重衰减（weight decay）。

方法

权重衰减等价于 $L_2$ 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。我们先描述 $L_2$ 范数正则化，再解释它为何又称权重衰减。

$L_2$ 范数正则化在模型原损失函数基础上添加 $L_2$ 范数惩罚项，从而得到训练所需要最小化的函数。 $L_2$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以3.1节（线性回归）中的线性回归损失函数

$\\ell(w_1, w_2, b) = \\frac1n \\sum_i=1^n \\frac12\\left(x_1^(i) w_1 + x_2^(i) w_2 + b - y^(i)\\right)^2$

为例，其中 $w_1, w_2$ 是权重参数， $b$ 是偏差参数，样本 $i$ 的输入为 $x_1^(i), x_2^(i)$ ，标签为 $y^(i)$ ，样本数为 $n$ 。将权重参数用向量 $\\boldsymbolw = [w_1, w_2]$ 表示，带有 $L_2$ 范数惩罚项的新损失函数为

$\\ell(w_1, w_2, b) + \\frac\\lambda2n \\|\\boldsymbolw\\|^2,$

其中超参数 $\\lambda > 0$ 。当权重参数均为0时，惩罚项最小。当 $\\lambda$ 较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当 $\\lambda$ 设为0时，惩罚项完全不起作用。

上式中 $L_2$ 范数平方 $\\|\\boldsymbolw\\|^2$ 展开后得到 $w_1^2 + w_2^2$ 。有了 $L_2$ 范数惩罚项后，在小批量随机梯度下降中，我们将线性回归一节中权重 $w_1$ 和 $w_2$ 的迭代方式更改为：

$\\beginaligned w_1 &\\leftarrow \\left(1- \\frac\\eta\\lambda|\\mathcalB| \\right)w_1 - \\frac\\eta|\\mathcalB| \\sum_i \\in \\mathcalBx_1^(i) \\left(x_1^(i) w_1 + x_2^(i) w_2 + b - y^(i)\\right),\\\\ w_2 &\\leftarrow \\left(1- \\frac\\eta\\lambda|\\mathcalB| \\right)w_2 - \\frac\\eta|\\mathcalB| \\sum_i \\in \\mathcalBx_2^(i) \\left(x_1^(i) w_1 + x_2^(i) w_2 + b - y^(i)\\right). \\endaligned$