频繁项集算法
Posted optimism
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了频繁项集算法相关的知识,希望对你有一定的参考价值。
基础知识:
用户 | 薯片(A) | 可乐(B) | 铅笔(C) | 羽毛球(D) | 洗衣液(E) |
1 | √ | √ | √ | ||
2 | √ | √ | √ | √ | |
3 | √ | √ | √ | ||
4 | √ | √ | √ | ||
5 | √ | √ |
支持度:单个项占总项集的百分比,比如薯片的支持度=4/5*100%=80%,可乐的支持度=3/5*100%=60%。
置信度:薯片=>羽毛球的置信度=3/4*100%=75%,可乐=>羽毛球的置信度=3/3*100%=100%。
一、Apriori算法
假设minsupport=0.2,得出频繁项集:
1)1-项集C1={A,B,C,D,E},1-频繁项集L1={A,B,C,D};
2)1-频繁项集进行拼接得到2-项集C2={(A,B),(A,C),(A,D),(B,C),(B,D),(C,D)},2-频繁项集L2={(A,B),(A,C),(A,D),(B,D),(C,D)}
3)2-频繁项集拼接得到3-项集C3={(A,B,C),(A,B,D),(A,C,D),(B,C,D)},3-频繁项集L3={(A,B,D)}
4)最后得到所有的频繁项目集L={(A,B),(A,C),(A,D),(B,D),(C,D),(B,C,D)}
假设minconfidence=60%,得出关联规则:
我们这里仅仅对最大的频繁项集(B,C,D)进行计算,得出其中是否有强关联规则:
B=>CD,confidence=33%,不是强关联规则;BC=>D,confidence=100%,强关联规则;
C=>BD,confidence=33%,不是强关联规则;CD=>B,confidence=50%,不是强关联规则;
D=>BC,confidence=25%,不是强关联规则;BD=>C,confidence=33%,不是强关联规则。
以上是关于频繁项集算法的主要内容,如果未能解决你的问题,请参考以下文章