Weka 3.7.11 中的随机树对数值属性使用啥分割标准?
Posted
技术标签:
【中文标题】Weka 3.7.11 中的随机树对数值属性使用啥分割标准?【英文标题】:What splitting criterion does Random Tree in Weka 3.7.11 use for numerical attributes?Weka 3.7.11 中的随机树对数值属性使用什么分割标准? 【发布时间】:2015-07-20 23:19:15 【问题描述】:我正在使用 Weka 3.7.11 中的 RandomForest,这反过来又装袋了 Weka 的 RandomTree。我的输入属性是数字的,输出属性(标签)也是数字的。
在训练 RandomTree 时,为树的每个节点随机选择 K 个属性。尝试基于这些属性的几个拆分,并选择“最佳”一个。 Weka 如何确定在这种(数字)情况下哪种拆分最好?
对于名义属性,我相信 Weka 使用的是基于条件熵的 information gain 标准。
IG(T|a) = H(T) - H(T|a)
类似的东西用于数字属性吗?也许是微分熵?
【问题讨论】:
【参考方案1】:当树在数值属性上被分割时,它会在a>5
这样的条件下被分割。所以,这个条件实际上变成了二元变量,标准(信息增益)是完全一样的。
附:对于回归,常用的是平方误差之和(对于每个叶子,然后对叶子求和)。但我不具体了解Weka
【讨论】:
谢谢。在这种情况下,T
也是数字。这是否意味着H(T)
是微分熵?
对不起。我忽略了你正在做回归。对于回归,常用的是平方误差之和(对于每个叶子,然后对叶子求和)。但我不具体了解 Weka。
在weka中,看random tree implementation时似乎是:variance before split - sum of variances after split
。以上是关于Weka 3.7.11 中的随机树对数值属性使用啥分割标准?的主要内容,如果未能解决你的问题,请参考以下文章