我如何从均方根误差中理解我的模型过拟合或欠拟合?
Posted
技术标签:
【中文标题】我如何从均方根误差中理解我的模型过拟合或欠拟合?【英文标题】:How can i understand my model overfit or underfit from root mean squared error? 【发布时间】:2020-10-13 08:17:57 【问题描述】:我知道 R 平方的这种解释,但我必须用均方根误差来解释。
例如:对于训练集,我有第二度 32.5、第三度 29.2、第四度 27.5 的均方根误差。另一方面,对于验证集,我有第二度 34.2、第三度 32.3、第四度 35.8 的均方根误差。我对此有一些解释,我猜 4 度是过度拟合,但我无法解释 2 度和 3 度的任何东西。
【问题讨论】:
【参考方案1】:在您的案例中,程度代表模型的复杂性。随着复杂性的增加,该模型通常会在训练集上表现得更好——RMSE 会下降。此外,随着模型变得更加复杂,验证集的性能通常会提高,因为它将能够更好地捕捉数据中的模式。但这仅在某个时候成立。当您的模型变得太复杂(在您的情况下,度数变得太高)时,它会过于紧密地复制数据并且不会泛化——它在训练期间没有看到的数据上的性能会受到影响。看不见的数据是您的验证集。在您的情况下,从 2 度到 3 度的复杂性步骤提高了训练集和验证集的性能。但是,当您尝试 4 度模型时,它在验证集上的性能下降了。这是过度拟合的标志。
【讨论】:
以上是关于我如何从均方根误差中理解我的模型过拟合或欠拟合?的主要内容,如果未能解决你的问题,请参考以下文章
斯坦福大学公开课机器学习: advice for applying machine learning - evaluatin a phpothesis(怎么评估学习算法得到的假设以及如何防止过拟合或欠