不懂分类和聚类,怎么敢说你懂数据挖掘!

Posted JMP数据分析

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了不懂分类和聚类,怎么敢说你懂数据挖掘!相关的知识,希望对你有一定的参考价值。

当我们面对大量数据的时候,总试图将大量的数据进行划分,然后依照划分的数据群组进行分析,而分类(Classification)与聚类(Clustering)就是我们常用的两种数据划分和数据挖掘技术。


然而在实际应用中,我们常常没有过多地去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,很容易“傻傻分不清楚”。其实,这两者之间有着本质的区别。


今天,小编就带着大家,通过入门级的知识普及和小案例应用,一起来探讨下分类与聚类在数据挖掘中的区别。


首先,我们来看看什么是分类和聚类。

所谓分类(Classification),就是按照某种标准给对象贴标签(label),再根据标签来区分归类;而聚类(Clustering),则是在是指事先没有“标签”的情况下,通过某种聚集分析,找出事物之间存在聚集性原因的过程。



分类如何使用?


从机器学习上看,分类作为一种监督学习方法,它的目标在于通过已有数据的确定类别,学习得到一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。


简单地说,就是我们在进行分类前,得到的数据已经标示了数据所属的类别,分类的目标就是得到一个分类的标准,使得我们能够更好的把不同类别的数据区分出来。

 

就如下图所示,分类分析的目的就是要找出区分红色数据和绿色数据的标准。分类分析的过程就是算法不断递进、使得标准更为准确的过程。

图:分类分析的过程


了解完分类,我们再来看看聚类。


聚类如何使用?


与分类技术不同,在机器学习中,聚类是一种无指导学习,也叫无监督学习。即聚类是在预先不知道分类的情况下,根据信息相似度原则进行信息聚类的一种方法。


聚类的目的,是将大量的数据通过“属于同类别的对象之间的差别尽可能的小,而不同类别的对象的差别尽可能的大”的原则进行分类。

 

因此,聚类的意义就在于将观察到的内容组织成类分层结构,把类似的事物组织在一起。通过聚类分析,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。


不懂分类和聚类,怎么敢说你懂数据挖掘!

图:聚类分析的过程


好了,了解完分类和聚类的概念及用法之后,接下来,我们分别通过两个简单的例子,来给大家进行更加形象的进一步说明。


分类——小案例


首先,我们来看第一个例子。这个例子是我们在分类分析和模式识别中常用的鸢尾花的数据。如下图所示,在这组数据中,记录了收集到的不同物种的鸢尾花萼片长度、宽度和花瓣长度、宽度。


此时,我们就需要通过分类分析,通过对萼片长度这些因子进行划分,找出能够更好区分不同的鸢尾花种类的模式。


不懂分类和聚类,怎么敢说你懂数据挖掘!点击图片查看高清大图


可以看出,在进行分类分析之前,我们事先是知道现有数据明确的类别信息,我们需要做的只是找出识别这些类别信息的模式规则。


聚类——小案例 


那么,如果现有的信息没有这些事先设定好的类别信息,而又需要对他们进行分类处理,这时候该怎么办呢?这就要用到聚类分析了。


下面这个例子,我们收集了一些糖果制造商不同品牌的糖果信息,诸如卡路里,脂肪等,但对于这些不同品牌的糖果,并没有一个明确的分类。


这时候我们就需要使用聚类分析的方法,将这些糖果基于上述信息进行分类,使得我们能够得知哪些糖果是属于哪一类,从而帮助我们更好地对不同类型的糖果特征进行探索。


不懂分类和聚类,怎么敢说你懂数据挖掘!

点击图片查看高清大图 


综上所述,我们可以得知,分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候,我们在进行数据分析的时候,事前并不能得到各个类别的信息。那么在这个时候,我们就需要使用聚类分析的方法。通过聚类分析,将数据进行分类,去识别全局的分布模式,更好地去探索不同类别数据属性之间的区别和联系,从而找到数据的区分标识,并以此来进行更好的数据分类分析、探索和数据挖掘工作。

 

好了,今天我们抛砖引玉的这篇入门文章为分类与聚类系列文章的第一期。接下来,我们还将陆续推出几篇文章,为大家深入地介绍实现两种分析最常用的一些方法,及其落地应用的精彩案例。敬请期待!


如果你有任何想法,也欢迎发表留言与大家一起探讨和分享。


最后,想亲自体验JMP强大功能的

小伙伴,也可以下载JMP免费

试用30天,你可以点击文末“阅读原文”

或复制以下链接到PC端浏览器下载:


https://www.jmp.com/zh_cn/software/try-jmp.html?utm_campaign=td701a0000000tOVN&utm_source=Wechat&utm_medium=social 


后记:如果你需要下载JMP相关学习视频,也欢迎在微信后台回复以下关键字(注意是在对话框回复消息,不是留言哦),索取相应的录制视频:

  • 回复“入门视频”,可下载“JMP应用入门”相关学习视频;

  • 回复“DOE视频”,可下载“DOE实验设计”相关学习视频;

  • 回复“EDA视频“,可下载“EDA探索性数据分析”相关学习视频;

  • 回复“QC视频“,可下载“QC质量七工具”相关学习视频;

  • 回复“可靠性视频“,可下载“可靠性分析"相关学习视频;

  • 回复“消费者研究视频“,可下载“消费者研究中的数据分析”相关学习视频;

  • 回复“高科技视频“,可下载“高科技制造质量提升”相关学习视频;

  • 回复“临床医药视频“, 可下载“数据分析在药物临床及工艺研发阶段的应用”相关学习视频;

  • 回复“CDISC视频”,可下载“CDISC策略及给临床试验业界带来的裨益”相关学习视频;

  • 回复“医学统计教学视频”,可下载“现代化的统计分析工具提升医学统计教学与应用的效率”相关学习视频;

  • 回复“工程教学视频”,可下载“JMP工程应用统计教学分享”相关学习视频;

  • 回复“应用统计教学视频”,可下载“JMP应用统计教学分享”相关学习视频。



敏捷分析 成就无限


点击“阅读原文”,下载JMP30天免费试用版~


以上是关于不懂分类和聚类,怎么敢说你懂数据挖掘!的主要内容,如果未能解决你的问题,请参考以下文章

模型算法分类算法和聚类算法的差异

深入解读 | 分类算法和聚类算法的差异

看完这几个问题 你还敢说你懂电脑吗?

解读分类算法与聚类算法

入门 | 解读分类算法与聚类算法

论文泛读192带有退火软最近邻损失的文本分类和聚类