对于大型数据集,如何在 R 中使用先验算法?

Posted

技术标签:

【中文标题】对于大型数据集,如何在 R 中使用先验算法?【英文标题】:How to use apriori algorithm in R, for large data set? 【发布时间】:2018-06-04 06:52:10 【问题描述】:

我一直致力于购物篮分析,通过 R 中的先验方法,数据包含 12 个变量和 21,00,000 个观察值,我的笔记本电脑有 4 GB RAM,我的 R 代码没有运行以将数据转换为交易。请帮忙。

【问题讨论】:

#嗨!欢迎来到 SO。请阅读-How to make a great R reproducible example?,在您的情况下,您能否向我们提供重要的代码段以及错误是什么?另外,您的数据的小样本? 您使用的是哪个版本的 R? 32 位还是 64 位? 您需要所有 2100 万次观察吗?也许一个样本就足够了? 【参考方案1】:

我过去曾为较大的数据集研究过先验算法。我遇到了类似的问题。为了暂时解决它,我使用了采样。后来我把它改成了几行 spark 实现,永久解决了我的问题。

https://spark.apache.org/docs/1.6.0/mllib-frequent-pattern-mining.html

【讨论】:

谢谢,不过,我解决了我的问题,将 4 个月内订购超过 3 次的客户带走,并缩短了我的数据。

以上是关于对于大型数据集,如何在 R 中使用先验算法?的主要内容,如果未能解决你的问题,请参考以下文章

在 Matlab 和 R 之间共享大型数据集

如何在 R 中读取大型数据集 [重复]

大型数据集上的 R 中的 hclust()

如何使用 R Shiny 映射大型数据集?

我们如何将大型数据集从 Google BigQuery 导入 R?

在 R 中处理大型数据集