为啥决策树显示正确分类而某些实例被错误分类

Posted

技术标签:

【中文标题】为啥决策树显示正确分类而某些实例被错误分类【英文标题】:Why the decision tree shows a correct classificationthe while some instances are being misclassified为什么决策树显示正确分类而某些实例被错误分类 【发布时间】:2014-12-17 00:02:47 【问题描述】:

我正在使用 WEKA、10 倍交叉验证或拆分 66% 来创建训练和测试集..我使用 c4.5 (J48) 作为分类器.. 我得到的结果是一些实例被错误分类,但是,当我可视化树时,我看到基于树的实例应该被正确分类!!!

当测试集是相同的训练集时,我看不到这一点。如果分类器决定创建这样一棵树,为什么某些实例没有根据这棵树进行分类???

提前致谢。

【问题讨论】:

为什么决策树显示正确分类而某些实例被错误分类 【参考方案1】:

听起来您正在寻找一棵完全未经修剪的树,因此训练数据应该返回 100% 的准确度。

可能导致不良结果的选项概述如下:

未剪枝用于最小化决策树中的规则数量,并可以降低泛化错误 minNumObj 用于确定制定规则所需的最小案例数。如果该值大于 1,您可能会在训练数据上遇到一些错误。

对于给定的问题,我通常不建议使用这些选项,但如果您试图在训练数据上获得 100% 的结果,这将是开始的地方。

希望这会有所帮助!

【讨论】:

以上是关于为啥决策树显示正确分类而某些实例被错误分类的主要内容,如果未能解决你的问题,请参考以下文章

决策树

统计学习方法 李航 决策树

决策树完整性和未分类数据

sklearn-分类决策树

决策树与随机森林

机器学习-决策树