Weka 决策树预测 NA 对缺失值的处理

Posted

技术标签:

【中文标题】Weka 决策树预测 NA 对缺失值的处理【英文标题】:Weka decision tree prediction NA treatment on missing values 【发布时间】:2015-07-03 00:49:42 【问题描述】:

您好,目前我正在实施一个大型 Hellinger 距离决策树,但遇到了一个问题。我在树节点中有一个连续变量,我不知道树将如何预测我是否会有该变量的缺失值。 例如,该节点的拆分标准 =250。树在预测时会选择什么路径? 树训练数据在该变量中也有缺失值。

也许我应该用特定数字替换所有缺失值?

【问题讨论】:

【参考方案1】:

您可以根据变量的行为采取行动。还要考虑分类器的值的影响。因此,如果可以概括,您可以使用最小值/最大值/平均值作为缺失值。

【讨论】:

【参考方案2】:

通常坚持输入不包含 Null,然后用户可以在拟合之前找到一种对其进行编码的方法。如果您做出选择,那么您将迫使未来的用户使用您的选择。

【讨论】:

以上是关于Weka 决策树预测 NA 对缺失值的处理的主要内容,如果未能解决你的问题,请参考以下文章

R语言缺失值的处理——回归预测法

机器学习决策树(划分选择算法流程剪枝处理,连续值与缺失值处理)

机器学习决策树为什么对缺失值不敏感,如何处理缺失值?

Reptree (WEKA),只对数值属性的值排序一次

R语言-缺失值判断以及处理

决策树