挖掘频繁项集

Posted yttas

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了挖掘频繁项集相关的知识,希望对你有一定的参考价值。

一,Apriori算法

Apriori算法的基本思路:

        产生L1候选集,剪枝(去掉L1里面不符合最小支持度的),连枝产生L2候选集,剪枝(去掉候选集不在数据集里的和不满足最小支持度的),产生L3。。。直到不能再产生新的候选集(具体判定就是连枝的时候,k-2项集不存在,这时不能生成k项集)

算法中需要注意的细节

        为了在统计L1候选集的频次的时候,能把L1作为字典的健,要把L1进行frozenset。用map()函数,把list里面的每一个元素都转换成set,转换之后会有重复的set(set的不重复性指的是set内部)。

        if a.issubset(b):如果a是b里面的子集则返回为真

        数据集要预处理转换成set形式,这样才能保证数据集的安全性

 

        

     

以上是关于挖掘频繁项集的主要内容,如果未能解决你的问题,请参考以下文章

挖掘频繁项集

序列模式挖掘频繁项集与频繁序列

FP-Growth算法之频繁项集的挖掘(python)

使用频繁项集挖掘构建关联规则?

Apriori算法

2017.06.29数据挖掘基础概念第六,八,九章