创建决策树和拆分属性有问题吗?
Posted
技术标签:
【中文标题】创建决策树和拆分属性有问题吗?【英文标题】:Problems with creating a decision tree and splitting on an attribute? 【发布时间】:2017-02-04 19:27:54 【问题描述】:所以我试图拆分具有可能值(蓝色、绿色、红色、橙色、粉红色)的属性“颜色”。
我正在拆分 entropy 值,最佳拆分可以是 Multi-Way 5、Multi-Way 4、Multi-Way 3 或 Binary。例如:
5: (Blue, Green,Red,Orange,Pink)
4: (Blue, Green), (Red), (Orange), (Pink)
(Green,Pink), (Blue),(Red),(Orange)
3: (Red,Orange), (Blue,Green), (Pink)
(Red,Blue), (Green, Orange), (Pink)
2: (Blue,Green,Red), (Orange,Pink)
(Pink), (Blue, Green, Red, Orange)
等等。但是我怎样才能列出所有可能的分裂呢?有没有我可以使用的特定算法?或者我怎么知道这个有多少最大可能的组合?
任何帮助将不胜感激,谢谢!!!
【问题讨论】:
【参考方案1】:根据熵(信息增益)的最佳分割将始终为 5。
回想一下,当您根据某个属性进行拆分时,您会获得有关 Y 的信息,或者如果它们是独立的,则没有信息增益,即每次拆分时的信息增益都大于等于零。所以 IG(cases 2:4)
对于拆分 >=0 时的 IG,请参阅:Can the value of information gain be negative?。
一般而言,在决策树/RF 中,您会尝试找到一个为属性提供最高 IG 的单个拆分,然后跨属性进行比较并选择一个。
【讨论】:
以上是关于创建决策树和拆分属性有问题吗?的主要内容,如果未能解决你的问题,请参考以下文章