澄清决策树代理分裂

Posted

技术标签:

【中文标题】澄清决策树代理分裂【英文标题】:Clarification of decision tree surrogate splits 【发布时间】:2018-06-15 10:54:27 【问题描述】:

我有一个关于 R 中 rpart 分类树的输出的问题。如果存在缺失值,则使用代理拆分。这是一个例子。

  Surrogate splits:
  ##       bmi    < 21.51 to the right, agree=0.858, adj=0.632, (0 split)

协议是否计算为代理拆分与主要拆分一致的案例比例?例如,如果代理未能就 4 个数据点中的 1 个达成一致,则协议将为 0.75。它是否正确?

此外,我不确定我对 adj 的解释。这是调整后的协议,考虑到偶然的协议吗?如果是这样,这是如何计算的?我认为这一定与数据中的先验有关,但不确定。

感谢任何见解。提前谢谢你。

【问题讨论】:

【参考方案1】:

您对协议计算是正确的。 adj 是节点杂质的减少。它参考了 rpart 的主要拆分。 adj 越高,考虑代理分割的效果就越好。这就是我的理解。如果有人添加到这里,那就太好了。

【讨论】:

如果有多个代理拆分。它们属于同一个最重要的主拆分,还是第二个最重要的主拆分变量的替代变量等等?

以上是关于澄清决策树代理分裂的主要内容,如果未能解决你的问题,请参考以下文章

R语言使用party包中的ctree函数构建条件推理决策树的流程和步骤条件推理决策树是传统决策树的一个重要变体条件推理树的分裂是基于显著性测试而不是熵/纯度/同质性度量来选择分裂

决策树以及XGBoost如何画出 树分裂图?

决策树以及XGBoost如何画出 树分裂图?

SIGAI机器学习第六集 决策树

决策树如何计算分裂属性?

机器学习之决策树学习