Weka 3.7.11 中的随机树对数值属性使用啥分割标准?

Posted

技术标签:

【中文标题】Weka 3.7.11 中的随机树对数值属性使用啥分割标准?【英文标题】:What splitting criterion does Random Tree in Weka 3.7.11 use for numerical attributes?Weka 3.7.11 中的随机树对数值属性使用什么分割标准? 【发布时间】:2015-07-20 23:19:15 【问题描述】:

我正在使用 Weka 3.7.11 中的 RandomForest,这反过来又装袋了 Weka 的 RandomTree。我的输入属性是数字的,输出属性(标签)也是数字的。

在训练 RandomTree 时,为树的每个节点随机选择 K 个属性。尝试基于这些属性的几个拆分,并选择“最佳”一个。 Weka 如何确定在这种(数字)情况下哪种拆分最好?

对于名义属性,我相信 Weka 使用的是基于条件熵的 information gain 标准。

IG(T|a) = H(T) - H(T|a)

类似的东西用于数字属性吗?也许是微分熵?

【问题讨论】:

【参考方案1】:

当树在数值属性上被分割时,它会在a>5这样的条件下被分割。所以,这个条件实际上变成了二元变量,标准(信息增益)是完全一样的。

附:对于回归,常用的是平方误差之和(对于每个叶子,然后对叶子求和)。但我不具体了解Weka

【讨论】:

谢谢。在这种情况下,T 也是数字。这是否意味着H(T) 是微分熵? 对不起。我忽略了你正在做回归。对于回归,常用的是平方误差之和(对于每个叶子,然后对叶子求和)。但我不具体了解 Weka。 在weka中,看random tree implementation时似乎是:variance before split - sum of variances after split

以上是关于Weka 3.7.11 中的随机树对数值属性使用啥分割标准?的主要内容,如果未能解决你的问题,请参考以下文章

weka 中的 ClusterMembership 类有啥作用?

Weka - 获得“准确率”?

Reptree (WEKA),只对数值属性的值排序一次

Weka 常用分类算法效果比较

如何在 WEKA 中执行属性的名义到数值转换?

WEKA中的预测结果是啥意思?