机器学习 Out-of-Fold 折外预测详解 | 使用折外预测 OOF 评估模型的泛化性能和构建集成模型

Posted 叶庭云

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 Out-of-Fold 折外预测详解 | 使用折外预测 OOF 评估模型的泛化性能和构建集成模型相关的知识,希望对你有一定的参考价值。


一、引言

机器学习算法的模型评估通常使用重采样技术,如 K 折交叉验证

机器学习模型可以使用 K-Fold 交叉验证技术来提高模型的预测精度。在交叉验证过程中,预测是在拆分出来的没有用于模型训练的测试集上进行的(模型训练没有见过它)。这些预测被称为折外预测(out-of-fold predictions)。折外预测在机器学习中发挥着重要作用,可以提高模型的泛化性能,以及构建集成模型

总结如下

  • 折外预测是算对不用于训练模型的数据进行的一种样本外预测;
  • 在对看不见的数据进行预测时,折外预测常用于模型评估,证明模型的泛化性能;
  • 折外预测可用于构建集成模型,称为堆叠泛化或堆叠集成。

下面详细介绍使用折外预测 OOF 评估模型的泛化性能和构建集成模型


二、什么是折外预测?

使用重采样技术例如 K-Fold 来评估机器学习算法在数据集上的性能是一种很常见的方法。K-Fold 过程包括将训练数据集分成 K 组,然后在使用 K 组样本中的每一个作为测试集,而其余样本用作训练集。这意味着训练和评估了 K 个不同的模型。这个过程可以总结如下:

  • 随机打乱数据集;
  • 将数据集分成 K 组(有时候可能需要按标签的分布分层划分);
  • 对于每个独特的组:将该组作为一个保留数据用做测试,将剩余的组作为训练数据集,在训练集上拟合模型并在测试集上进行评估,重

以上是关于机器学习 Out-of-Fold 折外预测详解 | 使用折外预测 OOF 评估模型的泛化性能和构建集成模型的主要内容,如果未能解决你的问题,请参考以下文章

python机器学习学习通第一章答案详解

数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测

数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}

数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(StackingBlendingBagging和Boosting)}