创建决策树和拆分属性有问题吗?

Posted

技术标签:

【中文标题】创建决策树和拆分属性有问题吗?【英文标题】:Problems with creating a decision tree and splitting on an attribute? 【发布时间】:2017-02-04 19:27:54 【问题描述】:

所以我试图拆分具有可能值(蓝色、绿色、红色、橙色、粉红色)的属性“颜色”。

我正在拆分 entropy 值,最佳拆分可以是 Multi-Way 5、Multi-Way 4、Multi-Way 3 或 Binary。例如:

5: (Blue, Green,Red,Orange,Pink)

4: (Blue, Green), (Red), (Orange), (Pink)
   (Green,Pink), (Blue),(Red),(Orange)

3: (Red,Orange), (Blue,Green), (Pink)
   (Red,Blue), (Green, Orange), (Pink)

2: (Blue,Green,Red), (Orange,Pink)
   (Pink), (Blue, Green, Red, Orange)

等等。但是我怎样才能列出所有可能的分裂呢?有没有我可以使用的特定算法?或者我怎么知道这个有多少最大可能的组合?

任何帮助将不胜感激,谢谢!!!

【问题讨论】:

【参考方案1】:

根据熵(信息增益)的最佳分割将始终为 5。

回想一下,当您根据某个属性进行拆分时,您会获得有关 Y 的信息,或者如果它们是独立的,则没有信息增益,即每次拆分时的信息增益都大于等于零。所以 IG(cases 2:4)

对于拆分 >=0 时的 IG,请参阅:Can the value of information gain be negative?。

一般而言,在决策树/RF 中,您会尝试找到一个为属性提供最高 IG 的单个拆分,然后跨属性进行比较并选择一个。

【讨论】:

以上是关于创建决策树和拆分属性有问题吗?的主要内容,如果未能解决你的问题,请参考以下文章

“拆分属性”可以在决策树中出现多次吗?

决策树和随机森林

决策树唯一性sklearn

如何使决策树规则更易于理解?

决策树和随机森林

博弈树和决策树有啥区别?