过拟合与欠拟合

Posted sasworld

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了过拟合与欠拟合相关的知识,希望对你有一定的参考价值。

1. 过拟合

过拟合是指在模型的训练阶段过分拟合训练数据的特征,模型的训练数据上具有较小的误差。数据中的噪声也有可能被模型所学习,使得模型的泛化性能较差。

通常导致过拟合产生的原因包括:

(1). 目标函数中没有相应的正则化项作为惩罚项, 常用的正则化项包括L1 和L2,其中L1约束能够学习出稀疏的模型从而能够达到特征选择的效果;对于L2约束则使得模型在各特征上的参数都比较小,控制每个特征对模型预测结果的影响,在一定程度上减少异常值(噪声)对模型性能的影响,提高模型的泛化性能;

(2). 模型训练迭代次数过多,导致训练误差越来越小,模型对训练数据的拟合程度过高而泛化性能下降,可以适当减少训练次数;

(3). 训练数据太少,模型容易达到对训练数据的最佳拟合,可以适当增加训练数据的数量(源头采集新数据,生成新数据,重采样技术);

(4). 数据维度过高,模型太过复杂,可以利用降维技术减少数据维度;

(5). 等等。

2. 欠拟合

欠拟合与过拟合相反,它是指模型对训练数据的描述能力较差,训练误差大。

欠拟合产生的原因包括:

(1). 数据维度过低,可以通过特征组合得到更多的新特征;

(2). 正则化项的惩罚因子过大,适当降低惩罚因子的大小;

(3). 训练次数太少,目标函数尚未收敛;

(4). 等等。

以上是关于过拟合与欠拟合的主要内容,如果未能解决你的问题,请参考以下文章

过拟合与欠拟合

模型评估之过拟合和欠拟合

误差方差偏差噪声训练误差+验证误差偏差方差窘境错误率和误差过拟合与欠拟合

机器学习过拟合与欠拟合!

机器学习过拟合与欠拟合!

机器学习:过拟合欠拟合正则化之间的纸短情长~