挖掘频繁项集
Posted yttas
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了挖掘频繁项集相关的知识,希望对你有一定的参考价值。
一,Apriori算法
Apriori算法的基本思路:
产生L1候选集,剪枝(去掉L1里面不符合最小支持度的),连枝产生L2候选集,剪枝(去掉候选集不在数据集里的和不满足最小支持度的),产生L3。。。直到不能再产生新的候选集(具体判定就是连枝的时候,k-2项集不存在,这时不能生成k项集)
算法中需要注意的细节
为了在统计L1候选集的频次的时候,能把L1作为字典的健,要把L1进行frozenset。用map()函数,把list里面的每一个元素都转换成set,转换之后会有重复的set(set的不重复性指的是set内部)。
if a.issubset(b):如果a是b里面的子集则返回为真
数据集要预处理转换成set形式,这样才能保证数据集的安全性
以上是关于挖掘频繁项集的主要内容,如果未能解决你的问题,请参考以下文章