对于大型数据集,如何在 R 中使用先验算法?
Posted
技术标签:
【中文标题】对于大型数据集,如何在 R 中使用先验算法?【英文标题】:How to use apriori algorithm in R, for large data set? 【发布时间】:2018-06-04 06:52:10 【问题描述】:我一直致力于购物篮分析,通过 R 中的先验方法,数据包含 12 个变量和 21,00,000 个观察值,我的笔记本电脑有 4 GB RAM,我的 R 代码没有运行以将数据转换为交易。请帮忙。
【问题讨论】:
#嗨!欢迎来到 SO。请阅读-How to make a great R reproducible example?,在您的情况下,您能否向我们提供重要的代码段以及错误是什么?另外,您的数据的小样本? 您使用的是哪个版本的 R? 32 位还是 64 位? 您需要所有 2100 万次观察吗?也许一个样本就足够了? 【参考方案1】:我过去曾为较大的数据集研究过先验算法。我遇到了类似的问题。为了暂时解决它,我使用了采样。后来我把它改成了几行 spark 实现,永久解决了我的问题。
https://spark.apache.org/docs/1.6.0/mllib-frequent-pattern-mining.html
【讨论】:
谢谢,不过,我解决了我的问题,将 4 个月内订购超过 3 次的客户带走,并缩短了我的数据。以上是关于对于大型数据集,如何在 R 中使用先验算法?的主要内容,如果未能解决你的问题,请参考以下文章