什么是过拟合，如何避免？

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了什么是过拟合，如何避免？相关的知识，希望对你有一定的参考价值。

参考技术A 过拟合：训练集上表现很好，但是在测试集上表现很差，泛化性能差。

降低过拟合的方法：
（1）试着寻找最简单的假设
（2）正则化
（3）early stopping
说明：在每一个epoch结束的时候，计算验证集的accurancy，记录到目前为止最
好的交叉验证accuracy，当连续10次epoch没达到最好的准确率的时候，可
以认为accurancy不再提高了。
（4）数据集扩增
（5）dropout
说明：在神经网络中，随机删除一些隐藏层单元。

什么是过拟合?如何避免过拟合问题？

参考技术A 过拟合 :所选模型的复杂度比真模型更高;学习时选择的模型所包含的参数过多,对已经数据预测得很好,但是对未知数据预测得很差的现象.

过拟合一般特点 :高方差,低偏差;

导致过拟合原因: 训练数据不够,模型进行过度训练（overtraining）等

如何避免过拟合:

1) Early stopping （适当的stopping criterion）: Early stopping便是一种迭代次数截断的方法来防止过拟合的方法，即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合

2) 数据集扩增 : 数据机扩增即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般方法有：从数据源头采集更多数据，复制原有数据并加上随机噪声，重采样，根据当前数据集估计数据分布参数，使用该分布产生更多数据等

3）正则化方法：一般有L1正则与L2正则等

4）Dropout：正则是通过在代价函数后面加上正则项来防止模型过拟合的。而在神经网络中，有一种方法是通过修改神经网络本身结构来实现的，其名为Dropout

以上是关于什么是过拟合，如何避免？的主要内容，如果未能解决你的问题，请参考以下文章

5. 过拟合及其避免

,带你明白什么是过拟合,欠拟合以及交叉验证

什么是过拟合

判断模型是不是过拟合、欠拟合、数据问题？

机器学习：过拟合欠拟合正则化之间的纸短情长～

L1正则化和L2正则化（从解空间角度）