过拟合解决办法之一：权重衰减

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了过拟合解决办法之一：权重衰减相关的知识，希望对你有一定的参考价值。

参考技术A 用于对付过拟合问题

权重衰减等价于 L2 范数正则化（regularization）

我们知道线性回归损失函数例如：

将权重参数用向量 w=[w1,w2] 表示，带有 L2 范数惩罚项的新损失函数为:

其中超参数 λ>0 。当权重参数均为0时，惩罚项最小。当 λ 较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当 λ 设为0时，惩罚项完全不起作用。

上式中 L2 范数平方展开后得到。有了 L2 范数惩罚项后，在小批量随机梯度下降中，权重 w1 和 w2 的迭代方式更改为:

我们以高维线性回归为例来引入一个过拟合问题，并使用权重衰减来应对过拟合。设数据样本特征的维度为p。对于训练数据集和测试数据集中特征为x1,x2,…,xp的任一样本，我们使用如下的线性函数来生成该样本的标签：

其中噪声项 ϵ 服从均值为0、标准差为0.01的正态分布。为了较容易地观察过拟合，我们考虑高维线性回归问题，如设维度 p=200 ；同时，我们特意把训练数据集的样本数设低，如20。

数据导入

可以看到，过拟合中几个周期后，训练误差急速下降，导致训练误差比测试误差小很多

可以看到，使用权重衰减之后，训练误差

深度学习之权重衰减——2020.27

?????过拟合现象，即模型的训练误差远?于它在测试集上的误差。虽然增?训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价?昂。本节介绍应对过拟合问题的常??法：权重衰减（weight decay）。

一、方法

?????权重衰减等价于范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较?，是应对过拟合的常??段。我们先描述范数正则化，再解释它为何?称权重衰减。
?????范数正则化在模型原损失函数基础上添加范数惩罚项，从?得到训练所需要最?化的函数。范数惩罚项指的是模型权重参数每个元素的平?和与?个正的常数的乘积。以3.1节（线性回归）中的线性回归损失函数

以上是关于过拟合解决办法之一：权重衰减的主要内容，如果未能解决你的问题，请参考以下文章