在 R 中处理大型数据集

Posted

技术标签:

【中文标题】在 R 中处理大型数据集【英文标题】:handle large data set in R 【发布时间】:2017-09-07 08:07:25 【问题描述】:

我有两个大数据集,第一个数据集是数字的,包含 60759 个对象和 15 个特征,第二个是分类的,包含 60759 个对象和 9 个特征,我正在尝试计算数字数据集的欧几里得距离和简单匹配分类数据集。但由于数据量大,我无法计算出来。

有人知道我们如何在 R 中处理大数据

【问题讨论】:

请重新表述您的问题——请参阅***.com/questions/5963269/… 一目了然,60k+ 行/ 你试过data.table包中的fread()函数读取大数据文件吗? 【参考方案1】:

您可以将 Microsoft R Open 与 RevoScaleR 库一起使用。 RevoScaleR 库旨在通过分解成更小的块来处理大量数据。

看这里:

https://docs.microsoft.com/en-us/r-server/r/concept-what-is-revoscaler https://docs.microsoft.com/en-us/r-server/r-client/what-is-microsoft-r-client

【讨论】:

【参考方案2】:

你可以试试paralleldDist包C++和多线程https://cran.r-project.org/web/packages/parallelDist/parallelDist.pdf

parDist(x, method = "euclidean")

【讨论】:

以上是关于在 R 中处理大型数据集的主要内容,如果未能解决你的问题,请参考以下文章

R中用于大型复杂调查数据集的方法?

R:循环处理大数据集(GB)的块?

如何在 R/Python 中迭代/循环一个大型(>2GB)JSON 数据集? [复制]

R读取大型数据集内存不足如何解决,如果利用Linux有啥有效方法吗?

R:具有 2 个大型数据集的模式匹配金融时间序列数据:

大型数据集上的 R 中的矩阵数学