基于类别数据的 Apriori 算法

Posted

技术标签:

【中文标题】基于类别数据的 Apriori 算法【英文标题】:Apriori algorithm on categories data 【发布时间】:2017-03-23 13:25:22 【问题描述】:

我正在处理一个提供输入文件categories.txt 的项目,它被要求首先输出所有长度为1 的频繁类别,最小支持为0.01。然后到所有频繁类别集。

目标是在文件中写入绝对支持(计数)的以下数据,例如:

2851:快餐;餐厅

我以列表的形式检索所有数据

data = []
with open("categories.txt") as file:
for line in file:
    line = line.replace("\n", "")
    line = line.split(";")
    data.append(line)

我的问题是我不知道如何处理第二种情况,找到所有类别的所有组合及其绝对支持(不是百分比支持)。我没有在 python 中找到任何好的 Apriori 库。

感谢您的帮助。

【问题讨论】:

这要么是题外话(在它要求图书馆推荐的程度上)或过于宽泛(在它要求实现非平凡机器学习算法的程度上) .请编辑您的问题,使其既切题又集中。见help center。 【参考方案1】:

请在此处查找python中的频繁项集挖掘库:Mining Frequent Itemsets PY Library

但我建议您不要使用 Apriori 算法来挖掘频繁项集。与其他频繁项集挖掘算法相比,它的速度很慢。至少检查一下 FP-Growth 算法,哪个更有效并在链接库中实现。

【讨论】:

以上是关于基于类别数据的 Apriori 算法的主要内容,如果未能解决你的问题,请参考以下文章

第九章 数据关联规则分析算法——基于Apriori算法的关联项分析

在 python 2.7 中运行 Apriori 算法

r apriori算法结果怎么看

基于spark实现并行化Apriori算法

Apriori算法的超市数据集

Apriori算法实现