基于类别数据的 Apriori 算法
Posted
技术标签:
【中文标题】基于类别数据的 Apriori 算法【英文标题】:Apriori algorithm on categories data 【发布时间】:2017-03-23 13:25:22 【问题描述】:我正在处理一个提供输入文件categories.txt 的项目,它被要求首先输出所有长度为1 的频繁类别,最小支持为0.01。然后到所有频繁类别集。
目标是在文件中写入绝对支持(计数)的以下数据,例如:
2851:快餐;餐厅
我以列表的形式检索所有数据
data = []
with open("categories.txt") as file:
for line in file:
line = line.replace("\n", "")
line = line.split(";")
data.append(line)
我的问题是我不知道如何处理第二种情况,找到所有类别的所有组合及其绝对支持(不是百分比支持)。我没有在 python 中找到任何好的 Apriori 库。
感谢您的帮助。
【问题讨论】:
这要么是题外话(在它要求图书馆推荐的程度上)或过于宽泛(在它要求实现非平凡机器学习算法的程度上) .请编辑您的问题,使其既切题又集中。见help center。 【参考方案1】:请在此处查找python中的频繁项集挖掘库:Mining Frequent Itemsets PY Library
但我建议您不要使用 Apriori 算法来挖掘频繁项集。与其他频繁项集挖掘算法相比,它的速度很慢。至少检查一下 FP-Growth 算法,哪个更有效并在链接库中实现。
【讨论】:
以上是关于基于类别数据的 Apriori 算法的主要内容,如果未能解决你的问题,请参考以下文章