在大型数据集上使用 rpart 包
Posted
技术标签:
【中文标题】在大型数据集上使用 rpart 包【英文标题】:Using rpart package on large dataset 【发布时间】:2016-07-09 03:40:09 【问题描述】:我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多(超过 50 个)类。所以 R 就挂了。
我有哪些选择来限制数据范围或减少每列中的类数?
【问题讨论】:
【参考方案1】:这称为分层抽样,您希望在减少数据集时类的比例保持不变。使用 caret 包中的 createDataPartition。
table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)
将 iris 替换为您的数据集名称
【讨论】:
如果对参数有任何疑问,请告诉我。有没有解决你的问题。如果有效,请标记答案以上是关于在大型数据集上使用 rpart 包的主要内容,如果未能解决你的问题,请参考以下文章