Apriori 算法的数据集

Posted

技术标签:

【中文标题】Apriori 算法的数据集【英文标题】:Dataset for Apriori algorithm 【发布时间】:2011-11-08 06:43:09 【问题描述】:

我打算开发一个购物篮分析应用程序(使用 apriori 算法),我发现了一个包含 90,000 多条交易记录的数据集。

问题是这个数据集没有项目的名称,只包含项目的条形码。

我刚刚开始这个项目并在做先验算法的研究,任何人都可以帮助我解决这个案例,使用以下数据集实现该算法的最佳方法是什么?

【问题讨论】:

【参考方案1】:

算法的定义独立于对象使用的标识符。此外,您没有发布“以下数据集”:P 如果您的问题是算法期望您的项目编号为 0、1、2,......那么只需扫描您的数据集并将每个单独的条形码映射到号码。

如果你有兴趣,有一些关于如何非常有效地表示频繁项集的论文:http://www.google.de/url?sa=t&source=web&cd=1&ved=0CB8QFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.163.4827%26rep%3Drep1%26type%3Dpdf&ei=QdVuTsn7Cc6WmQWD7sWVCg&usg=AFQjCNGDG8etNN2B4GQ52pSNIfQaTH7ajQ&sig2=7r3buh8AcfJmn2CwjjobAg

【讨论】:

【参考方案2】:

此类数据集被视为关键信息,连锁店不会为您提供这些信息,但您可以使用 SQL Server 自己生成一些示例数据集。

【讨论】:

【参考方案3】:

算法不需要项目的名称。

【讨论】:

以上是关于Apriori 算法的数据集的主要内容,如果未能解决你的问题,请参考以下文章

Apriori 算法python实现

基于spark实现并行化Apriori算法

关于数据挖掘中的apriori算法,帮忙推出关联规则 事务数为 5 支持度为0.6,置信度为0.6

Apriori算法原理总结

Apriori算法原理总结

数据挖掘-关联分析 Apriori算法和FP-growth 算法