随机森林中每棵树的平均绝对误差

Posted

技术标签:

【中文标题】随机森林中每棵树的平均绝对误差【英文标题】:Mean absoluate error of each tree in Random Forest 【发布时间】:2013-10-26 08:27:54 【问题描述】:

我正在使用 weka 的评估类来计算随机森林中每棵生成树的平均绝对误差。解释说“指的是数值类的预测值的误差,以及名义类的预测概率分布的误差。”

有人可以用简单的话或可能举个例子来解释吗?

【问题讨论】:

【参考方案1】:

平均绝对误差表明您的预测平均与测试数据的实际值有多接近。

对于数字类,这很容易考虑。 示例:

真值:0、1、4 预测值:1、3、1 差异:-1, -2, 3(从真值中减去预测值) 绝对差异:1、2、3 平均绝对差:(1+2+3)/3 = 2

对于名义类别,预测不再是单个值,而是属于不同可能类别的实例的概率分布。提供的示例将有两个类。 示例:

符号:[0.5, 0.5] 表示一个实例有 50% 的机会属于 Y 类,50% 的机会属于 X 类。

真实分布: [0,1] , [1,0] 预测分布: [0.25, 0.75], [1, 0] 差异: [-0.25, 0.25], [0, 0] 绝对差异: (0.25 + 0.25)/2, (0 + 0)/2 = 0.25, 0 平均绝对差:(0.25 + 0)/2 = 0.125

You can double check my explanation by visiting the source code for Weka's evaluation class. 另外作为旁注,我相信 Weka 报告的随机森林的平均绝对差异是针对整个森林,而不是单个树。

【讨论】:

您能否解释一下 Weka 如何计算名义类别的预测分布?

以上是关于随机森林中每棵树的平均绝对误差的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Python scikit-learn 中输出随机森林中每棵树的回归预测?

如何在 Python scikit-learn 中输出随机森林中每棵树的回归预测?

为啥我的随机森林分类器模型中每棵决策树的 max_depth 都是一样的?

10、决策树集成--随机森林

随机森林之oob的计算过程

RF 和 CART 最佳树中每棵树的主要区别?