Apriori算法的超市数据集

Posted

技术标签:

【中文标题】Apriori算法的超市数据集【英文标题】:Supermarket dataset for Apriori algorithm 【发布时间】:2012-04-03 00:42:10 【问题描述】:

'我要开发一款专为“Future Stores”超市业务分析师设计的软件,该软件对给定的超市销售交易的过渡数据进行关联规则挖掘,并通过准备Combo来准备折扣政策。 该软件利用数据挖掘算法,即 Apriori 算法。关联规则将以用户友好的方式显示以产生折扣 基于积极关联规则的策略。'

从哪里可以得到超市数据集来检查我编写的 Apriori 算法?

【问题讨论】:

【参考方案1】:

要获取市场数据集,您可以访问此处:fimi.ua.ac.be/data/ 并下载零售数据集。

它是来自比利时商店的匿名交易数据集。

非常适合测试 Apriori 或其他频繁项集挖掘和关联规则挖掘算法。

【讨论】:

【参考方案2】:

您应该为每个单元测试设计一个小的、特定的数据集,而不是寻找真实的数据集。数据集应提供验证系统单个功能的最小必要前提条件。这将更容易检测错误、随着时间的推移维护测试,并向其他开发人员展示系统的功能和使用模式。

来自不同域的示例是对创建和验证网站登录的用户子系统的测试。

addsNewUser - 空数据集 throwsExceptionForDuplicateUsername - 单用户数据集 correctPasswordPasses - 相同的数据集 throwsExceptionForIncorrectUsername - 相同的数据集 throwsExceptionForIncorrectPassword - 相同的数据集 throwsExceptionWhenNewUsernameExists - 两个用户数据集

更新:如果您需要一个非常大的数据集来执行集成或性能测试,您可能需要编写一个程序来生成随机的购买集合。我怀疑任何现有的超市都愿意(或能够)放弃他们的真实数据集。

话虽如此,多年前(HIPAA 之前)我作为一家健康保险提供商的承包商工作时,得到了一个样本数据集供我使用。它包含真实的患者信息,包括 SSN 和机密病史。 :(

【讨论】:

我已经做了所有的单元测试,也在小数据集上进行了测试,现在我需要一个大数据来验证它 @blackhole - 根据我的更新,我怀疑你需要自己构建它。

以上是关于Apriori算法的超市数据集的主要内容,如果未能解决你的问题,请参考以下文章

Apriori算法原理总结

R语言之Apriori算法

Apriori 算法的数据集

Apriori 算法python实现

使用Apriori进行关联分析

关于数据挖掘中的apriori算法,帮忙推出关联规则 事务数为 5 支持度为0.6,置信度为0.6