ARFF (Weka) 中的缺失值

Posted

技术标签:

【中文标题】ARFF (Weka) 中的缺失值【英文标题】:Missing values in ARFF (Weka) 【发布时间】:2011-08-26 10:05:53 【问题描述】:

Weka 中的分类器(例如决策树)如何解释“?” (代表 ARFF 文件中的缺失值)在学习阶段? Weka 会用一些预定义的值(例如“0”或“false”)替换它还是会以某种方式影响训练过程?

【问题讨论】:

【参考方案1】:

除了将缺失值单独视为属性值外,在 J48 分类器的情况下,对缺失值属性的任何拆分都将使用与观察到的非缺失值的频率成比例的权重来完成。这在 Witten 和 Frank 的教科书 Data Mining Practical Machine Learning Tools and Techniques(2005 年,第 2 版,第 63 页和第 191 页)中有所记载,随后他们报告了这一点

最终,实例的各个部分都将到达一个叶节点,并且这些叶节点的决策必须使用已渗透到叶的权重重新组合。

有关在决策树中处理缺失值的更多信息,例如 CART 中的代理拆分(与 C4.5 或其后继 J48 相反),可以在Classification Trees 的 wiki 部分找到;几篇文章也讨论了插补的使用,例如Handling missing data in trees: surrogate splits or statistical imputation.

【讨论】:

谢谢,这正是我想知道的。 那么这个问题的确切答案是什么? @AbhishekShivkumar 我今天收到的第二次盲目反对票并没有让我看到如何改进我的答案。当然,我意识到这对回答你的问题没有多大帮助:-)

以上是关于ARFF (Weka) 中的缺失值的主要内容,如果未能解决你的问题,请参考以下文章

Weka 决策树预测 NA 对缺失值的处理

使用 Weka 处理关联规则的缺失值

WEKA:如何区分“缺失”和“不适用”的数字数据?

使用测试集中的缺失值评估 weka 分类器 J48,R RWeka

Weka:分类器和 ReplaceMissingValues

Weka 中的训练和测试集不兼容