频繁项集算法

Posted 2021-11-25 optimism

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了频繁项集算法相关的知识，希望对你有一定的参考价值。

基础知识：

支持度：单个项占总项集的百分比，比如薯片的支持度=4/5*100%=80%，可乐的支持度=3/5*100%=60%。

置信度：薯片=>羽毛球的置信度=3/4*100%=75%，可乐=>羽毛球的置信度=3/3*100%=100%。

一、Apriori算法

假设minsupport=0.2，得出频繁项集：

1）1-项集C1={A，B，C，D，E}，1-频繁项集L1={A，B，C，D}；

2）1-频繁项集进行拼接得到2-项集C2={(A,B)，(A,C)，(A,D)，(B,C)，(B,D)，(C,D)}，2-频繁项集L2={(A,B)，(A,C)，(A,D)，(B,D)，(C,D)}

3）2-频繁项集拼接得到3-项集C3={(A,B,C)，(A,B,D)，(A,C,D)，(B,C,D)}，3-频繁项集L3={(A,B,D)}

4）最后得到所有的频繁项目集L={(A,B)，(A,C)，(A,D)，(B,D)，(C,D)，(B,C,D)}

假设minconfidence=60%，得出关联规则：

我们这里仅仅对最大的频繁项集(B,C,D)进行计算，得出其中是否有强关联规则：

B=>CD，confidence=33%，不是强关联规则；BC=>D，confidence=100%，强关联规则；

C=>BD，confidence=33%，不是强关联规则；CD=>B，confidence=50%，不是强关联规则；

D=>BC，confidence=25%，不是强关联规则；BD=>C，confidence=33%，不是强关联规则。

以上是关于频繁项集算法的主要内容，如果未能解决你的问题，请参考以下文章