-聚类算法

Posted 2022-06-03 說詤榢

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了-聚类算法相关的知识，希望对你有一定的参考价值。

文章目录

8-聚类算法

8-聚类算法

文章链接:https://gitee.com/fakerlove/machine-learning

8.1 聚类任务

什么是聚类，聚类是做什么的

8.1.1 概念

机器学习里面的聚类是无监督的学习问题，它的目标是为了感知样本间的相似度进行类别归纳。它可以用于潜在类别的预测以及数据压缩上去。

潜在类别预测，比如说可以基于通过某些常听的音乐而将用户进行不同的分类。数据压缩则是指将样本进行归类后，就可以用比较少的的One-hot向量来代替原来的特别长的向量。

聚类，既可以作为一个单独的过程，也可以作为其他机器学习任务的预处理模块。

8.1.2 问题描述

给定一个包含 $N$ 个样本的样本集 $X=\\x_1,x_2,...,x_N\\$ ，要给对这N个样本给定一个划分方式，将这些样本划分为m类 $C_1,C_2,C_3,...,C_m$ ,使得满足

$C_i\\ne \\phi,i=1,2,...,m$

$U_i=1,2,..,mC_i=X$

$C_i\\bigcap C_j=\\phi,i\\ne j$

8.1.3 算法分类

聚类算法主要有：

序贯法
层次分析法
基于损失函数最优化的：K-means,概率聚类
基于密度的聚类
其他特殊聚类方法：基因聚类算法，分治限界聚类算法；子空间聚类算法；基于核的聚类方法。

问题的提出

虽然聚类看起来是很棒的，可以进行“物以类分，人以类聚”，但是聚类确守很多方面的影响。
例如：
1.属性选择不同，导致不同的结果
2.相似度度量不同，导致不同的结果
3.聚类的方法不同，导致不同的结果

如何衡量无监督学习的指标

性能指标
距离计算

8.1.4 数学准备

样本集合中由n个样本，每个样本由m个属性的特征向量组成，样本集合可以用矩阵X表示：
$X=[x_ij]_m\\times n=\\beginbmatrix x_11&x_12&\\cdots&x_1n \\\\ x_21&x_22&\\cdots&x_2n \\\\ \\vdots &\\vdots&\\cdots&\\vdots \\\\ x_m1&x_m2&\\cdots&x_mn \\endbmatrix$
给定样本集合X, $x_i,x_j\\in X,x_i=(x_1i,x_2i,...,x_mi)^T,x_j=(x_1j,x_2j,...,x_mj)^T$

1) 类或簇

用 $G$ 表示类或簇，用 $x_i,x_j$ 表示类中的样本， $N_G$ 表示 $G$ 中的样本个数， $d_ij$ 表示样本 $x_i$ 与样本 $x_j$ 之间的距离

类或簇的定义

设给定的整数，若集合 $G$ 中的任意两个样本 $x_i,x_j$ ，有 $d_ij\\le T$ , 则称 $G$ 表示为一个类或簇