分布式并行关联规则挖掘

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分布式并行关联规则挖掘相关的知识,希望对你有一定的参考价值。

  经典的关联规则挖掘算法Apriori和FP-growth,在大数据或者海量数据面前,由于候选集和生成的FP树大而无法存储到内存,同时也由于算法本身单机的特点,决定了它串行处理数据的方式,这在效率上很难满足大数据处理的要求,数据迁移到平台需要传输和转储,在大数据面前,也是一大难题。

  一般而言"关联规则的挖掘过程分为两步
  1 找出所有的频繁项集,根据定义这些项集的每一个频繁出现次数至少与预定义的最小支持度计数
  2 由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。
  由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定,因此重点研究产生频繁项集的过程。

  已有的学者再分布并行处理方面做得改进:

  1 数据划分思想

  2 多线程内存共享

  3 FP子树的分布并行处理

  4 条件模式基的并行分布挖掘

  5 采用多个局部FP树代替全局FP(二者是等价的,为了便于分布到各个Map上)

  待续。

以上是关于分布式并行关联规则挖掘的主要内容,如果未能解决你的问题,请参考以下文章

用于关联规则挖掘的android库是啥?

程序员之家 | 数据挖掘算法揭秘篇——关联规则方法

R语言apriori算法进行关联规则挖掘(限制规则的左侧或者右侧的内容进行具体规则挖掘)使用subset函数进一步筛选生成的规则去除左侧规则中的冗余信息获取更独特的有新意的关联规则

关联规则挖掘算法Apriori算法

关联规则

数据挖掘之关联规则实战关联规则智能推荐算法