过拟合和欠拟合问题

Posted 2022-09-01 timhy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了过拟合和欠拟合问题相关的知识，希望对你有一定的参考价值。

2019-08-27 11:45:21

问题描述：在模型评估过程中，过拟合和欠拟合具体是指什么现象，如何解决。

问题求解：

过拟合是指模型对于训练的数据集拟合呈现过当的情况，反应到评估指标上就是模型在训练集上的表现很好，但是在测试集和新数据上的表现较差。

欠拟合是指模型对于训练和预测时的表现都不好。

1）从数据入手，获得更多的训练数据是解决过拟合问题最有效的手段。因为更多的样本能够让模型学习到更多有效的特征，减小噪声的影响。当然，直接增加训练数据一般是很困难的，可以通过一些数据增强的方式来合成大量的训练数据。

2）降低模型复杂度。在数据较少的时候，模型过于复杂是产生过拟合的主要原因，可以适当减少模型的层数，神经元个数等。

3）集成学习方法。集成学习是把多个模型集成在一起，来降低单个模型的过拟合风险。

4）加入正则化/dropout方法。本质都是使权重的分布更加均衡，避免个别神经元占比过大导致过拟合，其本质也可以理解为集成学习。

1）从数据入手，可以考虑加入新特征。当特征不足或者现有特征和样本标签的相关性不强的时候，模型容易出现欠拟合。

2）增加模型复杂度。简单模型的学习能力较差，通过增加模型的复杂度可以使的模型拥有更强的拟合能力。

3）减少正则化系数。

以上是关于过拟合和欠拟合问题的主要内容，如果未能解决你的问题，请参考以下文章