什么是过拟合,如何避免?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是过拟合,如何避免?相关的知识,希望对你有一定的参考价值。
参考技术A 过拟合:训练集上表现很好,但是在测试集上表现很差,泛化性能差。降低过拟合的方法:
(1)试着寻找最简单的假设
(2)正则化
(3)early stopping
说明:在每一个epoch结束的时候,计算验证集的accurancy,记录到目前为止最
好的交叉验证accuracy,当连续10次epoch没达到最好的准确率的时候,可
以认为accurancy不再提高了。
(4)数据集扩增
(5)dropout
说明:在神经网络中,随机删除一些隐藏层单元。
什么是过拟合?如何避免过拟合问题?
参考技术A 过拟合 :所选模型的复杂度比真模型更高;学习时选择的模型所包含的参数过多,对已经数据预测得很好,但是对未知数据预测得很差的现象.过拟合一般特点 :高方差,低偏差;
导致过拟合原因: 训练数据不够,模型进行过度训练(overtraining)等
如何避免过拟合:
1) Early stopping (适当的stopping criterion): Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合
2) 数据集扩增 : 数据机扩增即需要得到更多的符合要求的数据,即和已有的数据是独立同分布的,或者近似独立同分布的。一般方法有:从数据源头采集更多数据,复制原有数据并加上随机噪声,重采样,根据当前数据集估计数据分布参数,使用该分布产生更多数据等
3)正则化方法: 一般有L1正则与L2正则等
4)Dropout: 正则是通过在代价函数后面加上正则项来防止模型过拟合的。而在神经网络中,有一种方法是通过修改神经网络本身结构来实现的,其名为Dropout
以上是关于什么是过拟合,如何避免?的主要内容,如果未能解决你的问题,请参考以下文章