第一节:机器学习无监督学习聚类概述及其三个属性
Posted 快乐江湖
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一节:机器学习无监督学习聚类概述及其三个属性相关的知识,希望对你有一定的参考价值。
文章目录
一:聚类概述
(1)监督学习和无监督学习
人工智能核心在于 机器学习,其目的是对事物进行辨识和区分,它分为两大类
- 监督学习:主要任务是分类,即用大量已经标记的数据完成对新数据的区分
- 无监督学习:主要任务是聚类,即在没有任何人工干预的情况下对数据进行区分
近几年来由于深度学习的发现和发展,使得监督学习的进步非常大,但是仅仅依靠监督学习是无法实现完整的人工智能的,因为人工智能的最大特征就是 智能
- 监督学习可以做到“能”:足够“能”是因为监督学习能够在大数据中挖掘知识,而人脑是做不到的;
- 但监督没有那么“智”:没有那么“智”是因为监督学习需要大量人工标记的训练样本,而人脑可以在没有指导或少量指导的条件下获得知识,同时人还可以不断学习强化各个领域的知识
所以人工智能更需要无监督学习,只有做到像人脑那样具备小样本学习、强化学习和迁移学习等能力,人工智能才能真正做到“智”。这样看来,人工智能的发展仍然是任重而道远
可以看到,无监督学习的难度是远远大于监督学习的,因此无监督学习的发展也是异常缓慢。但是我们必须意识到:人和动物的学习很大程度上是无监督的,我们通过观察发现世界的结构,而不是对其进行命名
(2)什么是聚类
A:什么是聚类
- 无监督学习和监督学习其本质就是聚类和分类的关系,聚类和无监督学习这两个概念很多时候可以等价使用
聚类:我们常说“物以类聚,人以群分”,自然事物总会按照一定的规律组织起来。因此聚类就是通过认识这些组织的结构特征获得知识,从而做出相应决策。聚类在数据分析非常重要,通常会应用于以下三个方面
- 发现数据的潜在结构:深入洞察数据、产生假设、检测异常、确定主要特征
- 对数据进行自然分组:确定不同组织之间的相似程度(例如PS中的自动抠图其实就是这个道理)
- 对数据进行压缩:将聚类原型作为组织和概括数据的方法
聚类一种典型的交叉学科,不止是计算机学科在研究,也常见于
- 生物学(例如生物分类)
- 社会学(例如社会关系)
- 哲学类
- 统计学
- 化学(例如分子动力学)
- 数学
- 医学(例如病灶识别)
B:聚类研究方向
关于聚类的研究大致可以分为以下三个方面
- 以技术为中心的研究:通俗来说其实就是聚类算法的研究;例如如何选择特征、如何进行测度学习、如何对数据进行划分等等
- 以数据为中心的研究:不同的应用领域会产生不同的数据类型,而不同的数据类型会导致不同的测度和启发规则的选择
- 聚类相关衍生问题的研究:例如数据可聚类性、聚类特征的选择、聚类可视化、聚类验证、集成聚类等等
C:学习聚类需要的一些知识
数学基础
- 线性代数
- 概率
- 数理统计
- 数值计算
- 优化方法
- …
计算机相关知识
- 数据库
- 数据结构
- 算法
- …
编程语言的应用能力
- Python(还有相关用于科学计算的包、库)
- C++
- …
二:聚类问题描述
(1)聚类的定义
聚类似乎是人类与生俱来的能力,下面的图片你可以很清楚的分清小猫和背景
但是对于计算机来说却有点为难它了,因为从计算机视角来看,这些无非就是普通的数据点罢了,它们并没有什么区别。关于聚类现如今并没有统一的定义,常用的定义如下
聚类(非形式化定义-不具有操作性):是把一个数据对象的集合划分为簇,使簇内对象相似、簇间对象不相似的过程
聚类(形式化定义-稍具操作性):给定 n n n个对象的某种表示,根据某种相似度度量,发现 K K K个簇,使得簇内对象相似度高、簇间对象相似度低的过程
可以看到,聚类定义之所以没有统一,就是因为相似度或者说簇没有一个准确的定义,这是因为在实际情形中所遇到簇的是千差万别的(体现在大小、形状和密度的不同)
- 如下图 a a a是一个二维空间的数据集、图 b b b表示该数据集有7个簇,分别用不同的颜色表示,这些簇在形状、尺寸和密度方面有所差别(目前没有任何一种聚类算法可以同时检测这7个簇)
(2)聚类的三个属性
给定一个数据集 X X X、距离函数 d d d,考虑一个聚类函数 F F F,Klienberg描述了三个属性
- 尺度不变性:对于任意距离函数 d d d和任意常数 a > 0 a>0 a>0,有 F ( a ) = F ( a d ) F(a)=F(ad) F(a)=F(ad)——也即要求聚类结果不能依赖于节点间距离的量纲
- 划分丰富性:聚类函数 F F F输出的数据簇划分集合包括数据所有可能的簇的划分结果——也即要求聚类结果由节点间相似或相异性函数控制
- 距离一致性:令 d d d和 d ′ d^\\prime d′是两个距离函数,如果 d ′ d^\\prime d′在 d d d的基础上缩小同一簇中数据之间的距离,扩大不同簇中数据之间的距离,则 F ( d ) = F ( d ′ ) F(d)=F(d^\\prime) F(d)=F(d′)——也即要求如果两个已经被划分到同一个簇的节点变得更近,或两个已经被划分到不同簇的节点变得更远,那么在新的距离下,聚类函数应该取得和以往结果一致的聚类结果
(3)不可能定理
不可能定理:不存在一个同时满足尺度不变性、划分丰富性和距离一致性三个性质的聚类函数 F F F
换句话说,对上面三个性质中的任何两个,都存在聚类函数同时满足它们,但是却找不到一个局类函数可以同时满足以上三个性质。因此在实际聚类任务当中,需要对上述其中某一个性质作放松
- 例如K-Means算法就是满足了尺度不变性、距离一致性但是却固定划分了 k k k个簇的算法
以上是关于第一节:机器学习无监督学习聚类概述及其三个属性的主要内容,如果未能解决你的问题,请参考以下文章