训练和测试集在构建决策树和使用它进行分类中的作用
Posted
技术标签:
【中文标题】训练和测试集在构建决策树和使用它进行分类中的作用【英文标题】:The Role of the Training & Tests Sets in Building a Decision Tree and Using it to Classify 【发布时间】:2011-06-29 09:04:47 【问题描述】:我已经在 weka 工作了几个月了。 目前,我正在 Ostfold 大学学院学习我的机器学习课程。 我需要一种更好的方法来构建基于分离的训练和测试集的决策树。 任何想出好主意的人都可以得到很大的缓解。 提前谢谢。
-Neo
【问题讨论】:
比什么好?你用什么方法?到目前为止你做了什么? 我用过 C5.0 工具。在其中指定训练和测试数据集非常容易。但在 weka,我没有找到这样的选项。 【参考方案1】:您可能会要求更具体的内容,但一般来说:
您使用训练集构建决策树,并使用测试集评估该树的性能。换句话说,在测试数据上,您调用一个通常命名为 c*lassify* 的函数,传入新建的树和您希望分类的数据点(在您的测试集中)。
此函数返回该数据点所属的树中的叶(终端)节点 - 并假设该叶的内容是同质的(填充来自单个类的数据,而不是混合数据),那么您有本质为该数据点分配了一个类标签。当您将树分配的类标签与数据点的实际类标签进行比较,并对测试集中的所有实例进行重复时,您就有了一个衡量树性能的指标。
经验法则:打乱您的数据,然后将 90% 分配给训练集,另外 10% 分配给测试集。
【讨论】:
【参考方案2】:实际上我正在寻找这样的东西 - http://weka.wikispaces.com/Saving+and+loading+models 保存模型,加载它并在训练集中使用它。 这正是我一直在寻找的。希望它对与我有类似问题的人有用。 干杯 -Neo182
【讨论】:
以上是关于训练和测试集在构建决策树和使用它进行分类中的作用的主要内容,如果未能解决你的问题,请参考以下文章
决策树(DecisionTree)和随机森林(Random Forests)
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型并评估模型在测试集和训练集上的分类效果(accurayF1偏差Deviance):Bagging算法与随机森林对比