对于大型数据集，如何在 R 中使用先验算法？

Posted 2023-03-23

技术标签:

【中文标题】对于大型数据集，如何在 R 中使用先验算法？【英文标题】：How to use apriori algorithm in R, for large data set? 【发布时间】：2018-06-04 06:52:10 【问题描述】：

我一直致力于购物篮分析，通过 R 中的先验方法，数据包含 12 个变量和 21,00,000 个观察值，我的笔记本电脑有 4 GB RAM，我的 R 代码没有运行以将数据转换为交易。请帮忙。

【问题讨论】：

#嗨！欢迎来到 SO。请阅读-How to make a great R reproducible example?，在您的情况下，您能否向我们提供重要的代码段以及错误是什么？另外，您的数据的小样本？您使用的是哪个版本的 R？ 32 位还是 64 位？您需要所有 2100 万次观察吗？也许一个样本就足够了？ 【参考方案1】：

我过去曾为较大的数据集研究过先验算法。我遇到了类似的问题。为了暂时解决它，我使用了采样。后来我把它改成了几行 spark 实现，永久解决了我的问题。

https://spark.apache.org/docs/1.6.0/mllib-frequent-pattern-mining.html

【讨论】：

谢谢，不过，我解决了我的问题，将 4 个月内订购超过 3 次的客户带走，并缩短了我的数据。

以上是关于对于大型数据集，如何在 R 中使用先验算法？的主要内容，如果未能解决你的问题，请参考以下文章

在 Matlab 和 R 之间共享大型数据集

如何在 R 中读取大型数据集 [重复]

大型数据集上的 R 中的 hclust()

如何使用 R Shiny 映射大型数据集？

我们如何将大型数据集从 Google BigQuery 导入 R？

在 R 中处理大型数据集