在大型数据集上使用 rpart 包

Posted

技术标签:

【中文标题】在大型数据集上使用 rpart 包【英文标题】:Using rpart package on large dataset 【发布时间】:2016-07-09 03:40:09 【问题描述】:

我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多(超过 50 个)类。所以 R 就挂了。

我有哪些选择来限制数据范围或减少每列中的类数?

【问题讨论】:

【参考方案1】:

这称为分层抽样,您希望在减少数据集时类的比例保持不变。使用 caret 包中的 createDataPartition。

table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)

将 iris 替换为您的数据集名称

【讨论】:

如果对参数有任何疑问,请告诉我。有没有解决你的问题。如果有效,请标记答案

以上是关于在大型数据集上使用 rpart 包的主要内容,如果未能解决你的问题,请参考以下文章

在大型数据集上使用 JOIN 运行 SQL 查询

在大型数据集上删除 Postgres 中的列

pandas to_parquet 在大型数据集上失败

Weka 中的 KNN 算法永远不会在大型数据集上完成

大型数据集上的 R 中的 hclust()

优化解决方案以在大型数据集上找到共同的第三个