过拟合解决办法之一:权重衰减

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了过拟合解决办法之一:权重衰减相关的知识,希望对你有一定的参考价值。

参考技术A 用于对付过拟合问题

权重衰减等价于 L2 范数正则化(regularization)

我们知道线性回归损失函数例如:

将权重参数用向量 w=[w1,w2] 表示,带有 L2 范数惩罚项的新损失函数为:

其中超参数 λ>0 。当权重参数均为0时,惩罚项最小。当 λ 较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当 λ 设为0时,惩罚项完全不起作用。

上式中 L2 范数平方 展开后得到 。有了 L2 范数惩罚项后,在小批量随机梯度下降中,权重 w1 和 w2 的迭代方式更改为:

我们以高维线性回归为例来引入一个过拟合问题,并使用权重衰减来应对过拟合。设数据样本特征的维度为p。对于训练数据集和测试数据集中特征为x1,x2,…,xp的任一样本,我们使用如下的线性函数来生成该样本的标签:

其中噪声项 ϵ 服从均值为0、标准差为0.01的正态分布。为了较容易地观察过拟合,我们考虑高维线性回归问题,如设维度 p=200 ;同时,我们特意把训练数据集的样本数设低,如20。

数据导入

可以看到,过拟合中几个周期后,训练误差急速下降,导致训练误差比测试误差小很多

可以看到,使用权重衰减之后,训练误差

深度学习之权重衰减——2020.27

?????过拟合现象,即模型的训练误差远?于它在测试集上的误差。虽然增?训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价?昂。本节介绍应对过拟合问题的常??法:权重衰减(weight decay)。

一、方法

?????权重衰减等价于 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较?,是应对过拟合的常??段。我们先描述 范数正则化,再解释它为何?称权重衰减。
?????范数正则化在模型原损失函数基础上添加 范数惩罚项,从?得到训练所需要最?化的函数。 范数惩罚项指的是模型权重参数每个元素的平?和与?个正的常数的乘积。以3.1节(线性回归)中的线性回归损失函数

以上是关于过拟合解决办法之一:权重衰减的主要内容,如果未能解决你的问题,请参考以下文章

深度学习之权重衰减——2020.27

神经网络权重衰减(weight-decay)

风控非平衡样本问题的定义和解决办法

动手学pytorch-过拟合欠拟合

小白学习之pytorch框架-模型选择(K折交叉验证)欠拟合过拟合(权重衰减法(=L2范数正则化)丢弃法)正向传播反向传播

机器学习:过拟合欠拟合正则化之间的纸短情长~