什么是过拟合
Posted 已删除ddd
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是过拟合相关的知识,希望对你有一定的参考价值。
过拟合很好理解,今天在知乎上看到eyounx这么解释,挺形象的,大致是这么个说法:在机器学习中,我们提高了在训练数据集上的表现力时,在测试数据集上的表现力反而下降了,这就是过拟合。
过拟合发生的本质原因,是由于监督学习的不适定性。比如我们再学习线性代数时,给出n个线性无关的方程,我们可以解出来n个变量,但是肯定解不出来n+1个变量。在机器学习中,如果数据(对应于方程)远小于模型空间(对应求解的变量),那么,就容易发生过拟合现象。
所以说,有限的训练数据并不能反映出一个模型的好坏,然而我们却不得不根据这有限个数据来挑选模型。因此,我们完全有可能挑选出在训练数据上表现很好,但是在测试集上表现很差的模型。因为在进行测试之前,我们并无法知道模型在测试数据上的表现。如果模型空间很大,也就是说有很多模型供我们挑选,那么,我们挑选对的模型的概率就会下降。但与此同时,如果想在训练集上表现良好,最直接的办法就是在足够大的模型空间中挑选模型,如果模型空间太小,我们就很难挑选出将训练集拟合的很好的模型。综上所述,如果想要拟合好训练数据,就需要足够大的空间模型。但是,如果模空间太大,挑选到好的模型的概率就会下降。因此,就会出现过拟合现象。
对于过拟合现象,有多种解释。
(1)经典的bias-variance decomposition.比较直观
(2)PAC-learning泛化界解释。我个人更倾向这个
(3)Bayes先验解释。
以上是关于什么是过拟合的主要内容,如果未能解决你的问题,请参考以下文章