数据挖掘:聚类算法概述

Posted CDA数据分析师

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘:聚类算法概述相关的知识,希望对你有一定的参考价值。

『云顶之上,生态纵览』2016大数据纵览峰会即将来袭,点击 阅读原文无缝报名!


文 | 宿痕

来源 | 知乎


本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。


  1. 聚类 VS 分类


分类是“监督学习”,事先知道有哪些类别可以分。



聚类是“无监督学习”,事先不知道将要分成哪些类。


数据挖掘:聚类算法概述




而分类的话,就是我们在判断“草莓”的时候,把它归为“水果”一类。


所以通俗的解释就是:分类是从训练集学习对数据的判断能力,再去做未知数据的分类判断;而聚类就是把相似的东西分为一类,它不需要训练数据进行学习。


学术解释:分类是指分析数据库中的一组对象,找出其共同属性。然后根据分类模型,把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型,然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。


聚类是指数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。


2.聚类的常见应用


我们在实际情况的中的应用会有:


  • marketing:客户分群


  • insurance:寻找汽车保险高索赔客户群


  • urban planning:寻找相同类型的房产


比如你做买家分析、卖家分析时,一定会听到客户分群的概念,用标准分为高价值客户、一般价值客户和潜在用户等,对于不同价值的客户提供不同的营销方案;


数据挖掘:聚类算法概述


还有像在保险公司,那些高索赔的客户是保险公司最care的问题,这个就是影响到保险公司的盈利问题;


还有在做房产的时候,根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。


3.k-means


(1)假定K个clusters(2)目标:寻找紧致的聚类


a.随机初始化clusters


数据挖掘:聚类算法概述


b.分配数据到最近的cluster


数据挖掘:聚类算法概述


c.重复计算clusters


d.repeat直到收敛


数据挖掘:聚类算法概述

优点:局部最优


缺点:对于非凸的cluster有问题


其中K=?


  • K<=sample size


  • 取决于数据的分布和期望的resolution


  • AIC,DIC


  • 层次聚类避免了这个问题


4.评估聚类


鲁棒性?


聚类如何,是否过度聚合?


很多时候是取决于聚合后要干什么。


5.case案例


case 1:卖家分群云图




原文链接:http://zhuanlan.zhihu.com/dataman/20397891

点击文章底部阅读原文,报名参加2016大数据纵览峰会!

以上是关于数据挖掘:聚类算法概述的主要内容,如果未能解决你的问题,请参考以下文章

第一节:基于网格的聚类算法概述

综述适用于聚类算法的2-D处理器阵列体系结构研究概述

聚类算法概述

第一节:基于划分的聚类算法概述

第一节:谱聚类算法概述及拉普拉斯矩阵

聚类算法(无监督学习)