是否有必要同时运行具有交叉验证的随机森林

Posted

技术标签:

【中文标题】是否有必要同时运行具有交叉验证的随机森林【英文标题】:is it neccessary to run random forest with cross validation at the same time 【发布时间】:2013-03-14 13:48:05 【问题描述】:

随机森林是一种稳健的算法。在随机森林中,它训练了几棵小树并具有OOB准确性。但是,是否有必要同时与随机森林进行交叉验证?

【问题讨论】:

【参考方案1】:

OOB 误差是对随机森林误差的无偏估计,这很好。但是你用交叉验证做什么?如果您将 RF 与不以相同方式使用 bagging 的其他算法进行比较,您需要一种低方差的方式来比较它们。无论如何,您必须使用交叉验证来支持其他算法。那么对 RF 和其他算法使用交叉验证样本拆分仍然是一个好主意,这样您就可以摆脱拆分选择带来的方差。

如果您将一个 RF 与另一个具有不同功能集的 RF 进行比较,那么比较 OOB 错误是合理的。如果您确保两个 RF 在训练期间使用相同的 bagging 集,则尤其如此。

【讨论】:

【参考方案2】:

您不需要执行任何类型的验证。如果你只是想用它,而不在乎过拟合的风险。

对于科学出版(或其他任何东西,您比较不同分类器的质量),您应该验证您的结果,交叉验证是这里的最佳实践。

【讨论】:

以上是关于是否有必要同时运行具有交叉验证的随机森林的主要内容,如果未能解决你的问题,请参考以下文章

如何在 scikit-learn 中执行随机森林模型的交叉验证?

如何在 R 中执行随机森林/交叉验证

Spark 随机森林交叉验证错误

R中的随机森林交叉验证

随机森林怎样才能高耗时?

随机森林之oob的计算过程