如何处理“rpart”中的连续和离散变量 - 使用 R 的决策树?

Posted

技术标签:

【中文标题】如何处理“rpart”中的连续和离散变量 - 使用 R 的决策树?【英文标题】:How to handle continuous and discrete variables in 'rpart' - decision trees using R? 【发布时间】:2013-02-26 06:01:05 【问题描述】:

我正在使用 R 中的 rpart 包创建一些决策树。我的数据集中有年龄、儿童数量等离散变量。但是生成的决策树有这些变量 n 小数。这意味着,它被视为连续变量。

如何避免这种情况以及如何在决策树中将这些变量作为离散变量?

【问题讨论】:

【参考方案1】:

将它们变成因子,这是在 R 中表示离散变量的标准方法。

【讨论】:

如果我这样做,决策树图中的文本不会显示确切的数字,而是显示一些我无法解释的文本字符..... 如何解决这个问题,***.com/a/3840211/987185 可能会提出一些建议。 TL;DR:text(tree, pretty=1) 应该在树的图上放置实际标签。 @ManojG:如果您遇到特定问题,您应该发布数据和代码。您可以用随机值替换数据条目,但要确保该数据集的结构相同。使用str 函数进行检查。

以上是关于如何处理“rpart”中的连续和离散变量 - 使用 R 的决策树?的主要内容,如果未能解决你的问题,请参考以下文章

如何处理 sklearn GradientBoostingClassifier 中的分类变量?

机器学习-常见问题积累

如何处理卡尔曼滤波器中的异步数据

处理 sklearn.tree.DecisionTreeClassifier 中的连续变量

PHP如何处理整数索引的非连续键控数组?

sklearn 集成和树中连续变量的分箱