判断模型是不是过拟合、欠拟合、数据问题?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了判断模型是不是过拟合、欠拟合、数据问题?相关的知识,希望对你有一定的参考价值。

参考技术A 该篇文章探索的是用pytorch搭建的模型是否出现过拟合、欠拟合、数据问题。

怎么知道知道自己的模型是过拟合,欠拟合,数据问题?
1)学习曲线(learning curves)

2)交叉验证(corss-validation)

3)我们可以先通过训练集和测试集准确率的大小,直观的判断模型是否过拟合;当没有把握断定模型是否过拟合时,再借助学习曲线。

详细介绍请查看此 文章

一份可运行的学习曲线(learning curves) 1 2 3

过拟合是模型对训练集数据拟合能力太强,甚至将训练数据中的noise都学习进去了,造成了在测试集上预测能力差的情况。
出现过拟合的原因
·训练数据量级小于模型的复杂度;
·训练集和测试集特征分布不一致;
·样本里的噪声数据过大,大到模型过分记住了噪声特征,反而忽略了真实的输入输出的关系;
·权值学习迭代次数足够多(overtraining)

过拟合,克服思路
1·利用dropout
2·利用L2/L1 regularization
torch.optim集成了很多优化器,如SGD,Adadelta,Adam,Adagrad,RMSprop等,这些优化器中有一个参数weight_decay,用于指定权值衰减率,相当于L2正则化中的λ参数。L2正则化:

缺点:torch.optim的优化器只能实现L2正则化,不能实现L1正则化。
3·调小batch_size
4·搜集更多数据
5·对神经元归一化BatchNorm
pytorch中BatchNorm有BatchNorm1d、BatchNorm2d、BatchNorm3d三种,根据具体数据选择不同的BatchNorm,BatchNorm层的使用与普通的层使用方法类似。

参考文章:
【1】 sklearn模型调优(判断是否过拟合及选择参数)
【2】 过拟合(出现的原因4种、解决方案6种)
【3】 深度学习过拟合解决方案(pytorch相关方案实现)
【4】 欠拟合、过拟合及其解决方法

以上是关于判断模型是不是过拟合、欠拟合、数据问题?的主要内容,如果未能解决你的问题,请参考以下文章

[模型优化]模型欠拟合及过拟合判断优化方法

如何知道是不是发生了欠拟合或过拟合?

模型选择欠拟合和过拟合(underfit-overfit)

过拟合和欠拟合问题

动手深度学习12- 模型选择,欠拟合和过拟合

什么是过拟合?如何避免过拟合问题?