关于决策树的预测
Posted
技术标签:
【中文标题】关于决策树的预测【英文标题】:Regarding prediction of Decision Tree 【发布时间】:2020-08-11 07:32:40 【问题描述】:决策树如何预测新数据集的结果。假设使用超参数,我允许我的决策树只增长到一定程度以避免过度拟合。现在一个新的数据点被传递给这个训练好的模型,所以新的数据点到达叶子节点之一。但是该叶节点如何预测数据点是 1 还是 0? (我在这里谈论分类)。
【问题讨论】:
这个问题更适合 Cross Validated (stats.stackexchange.com)。无论如何,您可以在此处阅读有关决策树的信息:scikit-learn.org/stable/modules/tree.html。 【参考方案1】:嗯,你几乎回答了你自己的问题。但只是为了扩展,最后将数据标记为 0 或 1 很大程度上取决于您使用的算法类型,例如 ID3 ,使用众数值进行预测。同样,C4.5 和 C5 或 CART 基于信息增益、ginni 指数等有不同的标准......
简单来说,训练决策树和预测查询实例的目标特征的过程如下:
提供一个包含多个训练实例的数据集,这些训练实例具有多个描述性特征和一个目标特征
通过在训练过程中使用信息增益的度量,沿着描述性特征的值不断分割目标特征来训练决策树模型
增长树直到我们完成一个停止条件 --> 创建代表我们想要为新查询实例做出的预测的叶节点
向树显示查询实例并沿着树向下运行,直到我们到达叶节点
完成 - 恭喜您找到问题的答案
这是我建议的一个链接,它从头开始非常详细地解释了决策树。好好读一读——
https://www.python-course.eu/Decision_Trees.php
【讨论】:
感谢您的信息,但我的问题仍未得到解答。以上所有内容都是关于如何构建模型和修剪等。假设我使用 CART 并使用基尼指数或熵。可以说,如果我使用 RF,则预测是在多数投票中完成的。决策树的预测方法是什么?以上是关于关于决策树的预测的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用rpart包构建决策树模型选择合适的树大小(复杂度)检查决策树对象的cptable内容(树的大小由分裂次数定义预测误差)使用plotcp函数可视化决策树复杂度参数与交叉验证错误的关系