在 R 中拆分大型数据集的有效方法
Posted
技术标签:
【中文标题】在 R 中拆分大型数据集的有效方法【英文标题】:Efficient way of splitting large datasets in R 【发布时间】:2019-04-19 23:42:56 【问题描述】:我正在使用函数 sample.split(data, SplitRatio)
来拆分 100 万 x 6 个元素的数据集。它非常慢。在 R 中有没有更快的方法来做到这一点?
【问题讨论】:
sample.split
接受一个向量,而不是整个 data.frame。我使用它时似乎相当快。
sample.split(data_set$luser_id, SplitRatio = 0.8)
我就是这样做的
这在我的机器上不到一秒钟。请参阅答案以了解您可以尝试的另一种方法。
我的数据集有一百万行
【参考方案1】:
另一种可能的方法
splitvector <- sample(c(T,F), size =1e6, replace=T,prob = c(.8, .2))
【讨论】:
以上是关于在 R 中拆分大型数据集的有效方法的主要内容,如果未能解决你的问题,请参考以下文章
在 phpMyAdmin SQL 表中存储大型数据集的有效方法
在 Java Spark 中迭代大型数据集的最快且有效的方法