决策树交叉验证问题
Posted
技术标签:
【中文标题】决策树交叉验证问题【英文标题】:Decision trees Cross Validation questions 【发布时间】:2013-01-24 06:10:15 【问题描述】:所以我正在编写一个决策树程序。 假设我有一个包含 1000 个实例的数据集。 据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每一次 使用不同的 900 集创建树并使用 100 集进行测试
我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择误差最小的那棵不是一个好选择,因为我猜这可能是因为过度拟合) 2. 交叉验证是否仅用于估计最终树中的误差? 3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?
谢谢!
【问题讨论】:
【参考方案1】:Cross validation
用于估计您的模型预测的准确度。
最好的树应该包含最好的分类器。即很好地分离数据的属性,因此您可以使用该属性开始构建决策树。
我建议您搜索Wikipedia
和Uncle Google
以获取有关decision trees
的更多信息
【讨论】:
我知道最好的树应该包含能够很好地分离数据的最佳属性。这就是决策树的重点。有很多方法可以决定哪个属性最好(即增益比率、信息增益、基尼指数等) - 我的问题是 - 交叉验证如何帮助我(如果有的话)选择我决定拆分的方式标准 ***.com/questions/2314850/…以上是关于决策树交叉验证问题的主要内容,如果未能解决你的问题,请参考以下文章
R语言做决策树交叉验证时,注册并加载完caret安装包,调用trainControl函数失败怎么办
R语言使用rpart包构建决策树模型选择合适的树大小(复杂度)检查决策树对象的cptable内容(树的大小由分裂次数定义预测误差)使用plotcp函数可视化决策树复杂度参数与交叉验证错误的关系