理解变量选择的大型决策树图?

Posted

技术标签:

【中文标题】理解变量选择的大型决策树图?【英文标题】:Comprehending large decision tree diagram for variable selection? 【发布时间】:2019-11-22 02:54:19 【问题描述】:

我有 1100 个样本和 2000 个二进制变量,我想确定与我的连续响应变量(我使用 labelencoder 转换的变量)相比,哪些变量最重要和最重要。我不需要预测模型,我只想知道重要的变量。有人建议我使用决策树,它会首先按最重要的变量将样本分成两类。我创建了决策树,但我仍然不确定哪些变量最重要。我假设第一次分裂是最重要的变量,但是这两个叶子现在根据另外两个变量分裂成更多叶子呢?其中哪个更重要?如果我的第一个变量将 1100 个样本拆分为 1050 个真和 50 个假,那么拆分 1050 个样本的变量是否比拆分 50 个样本的变量更重要?我是决策树的新手,所以我可能会误解整个概念。我无法理解将值分成真假的条件以及这意味着什么。是否只是该变量的二进制文件将其拆分?另外,这可能是题外话,但我不明白许多框中的“基尼”是什么意思。

【问题讨论】:

Best model for variable selection with big data?的可能重复 我知道你想知道这个问题的答案,但请不要重复发布相同的问题:***.com/questions/56977952/… 我觉得我得到了原始问题的答案。但我有一个关于决策树如何工作的不同问题。我只是重复了我的问题,以便上下文有意义。 【参考方案1】:

基本决策树使用Gini Indexing or Information Gain 来决定哪些变量最重要,并将该变量放在树的顶部。您是否尝试过使用 Graphviz 打印您的树?你会得到这样的

【讨论】:

是的,我能够对我的树进行可视化。对于上面的示例,我想我的问题是,如何区分 Pclass @ChaseLewis - 这是一个分类模型,其中因变量是“幸存的”。我们想看看包含在该范围内的哪个解释变量(new_sex、Pclass 等)对乘客的生存最重要。最重要的变量是基尼值为 0.47 的“new_sex”。根据模型分配的

以上是关于理解变量选择的大型决策树图?的主要内容,如果未能解决你的问题,请参考以下文章

验证决策树图

如何在 r studio 中缩小决策树图?

在 jupyter notebook 中显示 scikit 决策树图

决策树结构

更改使用导出 graphviz 创建的决策树图的颜色

python 决策树图