C4.5 决策树:分类概率分布?

Posted

技术标签:

【中文标题】C4.5 决策树:分类概率分布?【英文标题】:C4.5 decision tree: classification probability distribution? 【发布时间】:2012-08-04 23:37:09 【问题描述】:

我正在使用 Weka 的 J48 (C4.5) 决策树分类器。一般来说,对于决策树,一旦碰到叶子就可以确定分类概率分布吗?我知道使用朴素贝叶斯,每次分类尝试都会产生一个分类分布。

如果可以使用决策树,Weka J48 树是否提供此功能?我也可以尝试实现自己的树。

【问题讨论】:

【参考方案1】:

由于每个叶子都有一个实际上是离散分布的分类决策,它所指示的类具有 100%,而所有其他类具有 0。如果需要,您也可以使用训练集为所有内部节点生成分布。

如果您在学习树后进行修剪,则可以通过树重新运行训练集,并使用每个实际类落在该叶中的频率标记每个叶,这将是您的分布。

编辑:例如,一旦你得到你的树。您可以为每个节点关联一个直方图,其中每个类都有一个 bin。然后对训练集进行分类,如果遍历树中的一个节点,则在该类的相应 bin 中添加一个。在完成完整的训练集之后,只需对每个直方图进行归一化以添加 1。然后,如果您觉得叶子太接近 100%,您可以通过使用每个直方图的熵来确定要进一步修剪的内容。

【讨论】:

谢谢。我相信 Weka 会自动生成修剪过的树。问题是叶子几乎总是有 100% 的概率属于一个类别。如果我按照您的建议计算内叶的概率分布,我将如何选择哪个内叶?例如,对于高度为 10 的(平衡)树,根和叶之间有 8 个内部节点;在这 8 个中选择什么是好的规则?

以上是关于C4.5 决策树:分类概率分布?的主要内容,如果未能解决你的问题,请参考以下文章

决策树(ID3,C4.5,CART)原理以及实现

决策树分类算法小结

决策树(decision tree)

决策树和基于决策树的集成方法(DT,RF,GBDT,XGB)复习总结

《统计学习方法》读书笔记之决策树

统计学习笔记之决策树