决策树 - 决策树如何在每个节点上选择规则
Posted
技术标签:
【中文标题】决策树 - 决策树如何在每个节点上选择规则【英文标题】:Decision Tree - How does decision tree select rules on each node 【发布时间】:2019-01-28 08:16:16 【问题描述】:我正在学习机器学习中的决策树算法
我可以从教程中了解到,决策树在每个节点上计算信息增益,并据此确定节点的最佳属性。
但我无法得到的是它如何为每个节点定义最佳规则。
假设年龄是否是特定节点的最佳属性。在那种情况下,如果决策树选择规则年龄 > 50,那么我的问题是这个规则是怎么来的?
还请解释以下内容:
决策树在每个级别将数据划分为同质子集。
【问题讨论】:
建议您查看有关决策树的优秀教程,such as this one。 【参考方案1】:在每个节点,拆分函数选择特征和该特征的值(拆分记录的位置),从而最小化两个记录子集的成本。因此,它同时选择特征和值。成本函数取决于设置、分类或回归,但例如可能是熵,请注意,最小化熵等同于最大化信息增益(正如您在问题中描述的那样)。
更直观地说,目标是创建最纯粹的记录子集,即每个子集包含尽可能多的样本,只属于一个类。另一种说法是子集应该尽可能同质或尽可能纯。
有关更多详细信息,任何关于机器学习的介绍性教科书都是一个很好的起点,请参阅例如Introduction to Statistical Learning Tibshirani 和 Hastie 等人。
【讨论】:
那么,这意味着它会遍历特定属性的所有可能值以找到最佳规则吗?它适用于所有节点和属性? 可以通过为每个特征获取唯一的观察值(而不是所有可能的值)来获得用于分割数据的阈值集。【参考方案2】:基本上,有两个主要步骤。首先,特征选择是下一次分割的最佳候选(使用例如基尼指数或熵)。其次,您计算拆分前后的信息增益,并希望获得最大增益(您可以使用贪心方法)。
有一系列关于决策树的不错的文章,其中还讨论了优点和局限性,Decision Trees. Decoded。
【讨论】:
以上是关于决策树 - 决策树如何在每个节点上选择规则的主要内容,如果未能解决你的问题,请参考以下文章