在大型数据集上使用 rpart 包

Posted 2023-03-13

技术标签:

【中文标题】在大型数据集上使用 rpart 包【英文标题】：Using rpart package on large dataset 【发布时间】：2016-07-09 03:40:09 【问题描述】：

我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多（超过 50 个）类。所以 R 就挂了。

我有哪些选择来限制数据范围或减少每列中的类数？

【问题讨论】：

【参考方案1】：

这称为分层抽样，您希望在减少数据集时类的比例保持不变。使用 caret 包中的 createDataPartition。

table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)

将 iris 替换为您的数据集名称

【讨论】：

如果对参数有任何疑问，请告诉我。有没有解决你的问题。如果有效，请标记答案

以上是关于在大型数据集上使用 rpart 包的主要内容，如果未能解决你的问题，请参考以下文章