第一节:机器学习无监督学习聚类概述及其三个属性

Posted 快乐江湖

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一节:机器学习无监督学习聚类概述及其三个属性相关的知识,希望对你有一定的参考价值。

文章目录

一:聚类概述

(1)监督学习和无监督学习

人工智能核心在于 机器学习,其目的是对事物进行辨识和区分,它分为两大类

  • 监督学习:主要任务是分类,即用大量已经标记的数据完成对新数据的区分
  • 无监督学习:主要任务是聚类,即在没有任何人工干预的情况下对数据进行区分

近几年来由于深度学习的发现和发展,使得监督学习的进步非常大,但是仅仅依靠监督学习是无法实现完整的人工智能的,因为人工智能的最大特征就是 智能

  • 监督学习可以做到“能”:足够“能”是因为监督学习能够在大数据中挖掘知识,而人脑是做不到的;
  • 但监督没有那么“智”:没有那么“智”是因为监督学习需要大量人工标记的训练样本,而人脑可以在没有指导或少量指导的条件下获得知识,同时人还可以不断学习强化各个领域的知识

所以人工智能更需要无监督学习,只有做到像人脑那样具备小样本学习、强化学习和迁移学习等能力,人工智能才能真正做到“智”。这样看来,人工智能的发展仍然是任重而道远

可以看到,无监督学习的难度是远远大于监督学习的,因此无监督学习的发展也是异常缓慢。但是我们必须意识到:人和动物的学习很大程度上是无监督的,我们通过观察发现世界的结构,而不是对其进行命名

(2)什么是聚类

A:什么是聚类

  • 无监督学习和监督学习其本质就是聚类和分类的关系,聚类和无监督学习这两个概念很多时候可以等价使用

聚类:我们常说“物以类聚,人以群分”,自然事物总会按照一定的规律组织起来。因此聚类就是通过认识这些组织的结构特征获得知识,从而做出相应决策。聚类在数据分析非常重要,通常会应用于以下三个方面

  • 发现数据的潜在结构:深入洞察数据、产生假设、检测异常、确定主要特征
  • 对数据进行自然分组:确定不同组织之间的相似程度(例如PS中的自动抠图其实就是这个道理)
  • 对数据进行压缩:将聚类原型作为组织和概括数据的方法

聚类一种典型的交叉学科,不止是计算机学科在研究,也常见于

  • 生物学(例如生物分类)
  • 社会学(例如社会关系)
  • 哲学类
  • 统计学
  • 化学(例如分子动力学)
  • 数学
  • 医学(例如病灶识别)

B:聚类研究方向

关于聚类的研究大致可以分为以下三个方面

  • 以技术为中心的研究:通俗来说其实就是聚类算法的研究;例如如何选择特征、如何进行测度学习、如何对数据进行划分等等
  • 以数据为中心的研究:不同的应用领域会产生不同的数据类型,而不同的数据类型会导致不同的测度和启发规则的选择
  • 聚类相关衍生问题的研究:例如数据可聚类性、聚类特征的选择、聚类可视化、聚类验证、集成聚类等等

C:学习聚类需要的一些知识

数学基础

  • 线性代数
  • 概率
  • 数理统计
  • 数值计算
  • 优化方法

计算机相关知识

  • 数据库
  • 数据结构
  • 算法

编程语言的应用能力

  • Python(还有相关用于科学计算的包、库)
  • C++

二:聚类问题描述

(1)聚类的定义

聚类似乎是人类与生俱来的能力,下面的图片你可以很清楚的分清小猫和背景

但是对于计算机来说却有点为难它了,因为从计算机视角来看,这些无非就是普通的数据点罢了,它们并没有什么区别。关于聚类现如今并没有统一的定义,常用的定义如下

聚类(非形式化定义-不具有操作性):是把一个数据对象的集合划分为,使簇内对象相似、簇间对象不相似的过程

聚类(形式化定义-稍具操作性):给定 n n n个对象的某种表示,根据某种相似度度量,发现 K K K个簇,使得簇内对象相似度高、簇间对象相似度低的过程

可以看到,聚类定义之所以没有统一,就是因为相似度或者说簇没有一个准确的定义,这是因为在实际情形中所遇到簇的是千差万别的(体现在大小、形状和密度的不同)

  • 如下图 a a a是一个二维空间的数据集、图 b b b表示该数据集有7个簇,分别用不同的颜色表示,这些簇在形状、尺寸和密度方面有所差别(目前没有任何一种聚类算法可以同时检测这7个簇)

(2)聚类的三个属性

给定一个数据集 X X X、距离函数 d d d,考虑一个聚类函数 F F F,Klienberg描述了三个属性

  • 尺度不变性:对于任意距离函数 d d d和任意常数 a > 0 a>0 a>0,有 F ( a ) = F ( a d ) F(a)=F(ad) F(a)=F(ad)——也即要求聚类结果不能依赖于节点间距离的量纲
  • 划分丰富性:聚类函数 F F F输出的数据簇划分集合包括数据所有可能的簇的划分结果——也即要求聚类结果由节点间相似或相异性函数控制
  • 距离一致性:令 d d d d ′ d^\\prime d是两个距离函数,如果 d ′ d^\\prime d d d d的基础上缩小同一簇中数据之间的距离,扩大不同簇中数据之间的距离,则 F ( d ) = F ( d ′ ) F(d)=F(d^\\prime) F(d)=F(d)——也即要求如果两个已经被划分到同一个簇的节点变得更近,或两个已经被划分到不同簇的节点变得更远,那么在新的距离下,聚类函数应该取得和以往结果一致的聚类结果

(3)不可能定理

不可能定理:不存在一个同时满足尺度不变性、划分丰富性和距离一致性三个性质的聚类函数 F F F

换句话说,对上面三个性质中的任何两个,都存在聚类函数同时满足它们,但是却找不到一个局类函数可以同时满足以上三个性质。因此在实际聚类任务当中,需要对上述其中某一个性质作放松

  • 例如K-Means算法就是满足了尺度不变性、距离一致性但是却固定划分了 k k k个簇的算法

以上是关于第一节:机器学习无监督学习聚类概述及其三个属性的主要内容,如果未能解决你的问题,请参考以下文章

[机器学习与scikit-learn-22]:算法-聚类-无监督学习与聚类基本原理

吴恩达机器学习学习笔记——1.5无监督学习

无监督机器学习中,最常见的聚类算法有哪些?

专栏丨聚类算法神经网络及其在量化选股中的实践

点宽专栏聚类算法神经网络及其在量化选股中的实践

python与机器学习