关于机器学习中C均值算法的相关介绍

Posted 2020-10-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了关于机器学习中C均值算法的相关介绍相关的知识，希望对你有一定的参考价值。

前言

在机器学习的无监督算法中，可能C均值算法是较早出现（笔者在韩家炜教授上世纪90年代所著的《数据挖掘》中最早看到）同时其若干变种可能也是应用最为广泛的一类无监督算法，只不过那时可能机器学习一词使用的还不甚广泛，而是叫做数据挖掘（Data Mining），不过无论采用何种称谓，其本质其实并没有什么不同，而且需要说明的一点是，这种算法在业界又被称作K均值算法（即KMeans）。

在前面讨论混合高斯聚类方法时，本来笔者提到无意阐述这个算法（可能过于简单抑或它已经烂大街了？就像MINST库被玩残了一样），但其有一个所谓的模糊C均值聚类，这个模型还是有些讨论价值的。

对于一般聚类算法而言，其实我们主要考量两个原则，一个是类内聚合程度以及类间分离程度，故以下的相关讨论一般都是围绕这两个原则进行的，包括后面会写到的相关基于密度的无参数聚类算法，如削峰法以及描峰法等（其实对于其它非聚类算法而言，也一般需要遵从这两个原则，而对于监督分类算法则不完全一样，因为样本点已经被进行了标识，即打了标签）。

基础C均值算法

根据类聚合原则而言，对于样本的相关分类当然是类内的差异越小越好，而类间的差异是越大越好，这样方能达到我们对于聚类的需求，但采用不同的类聚合评估函数会导致不同的聚类结果，而人们习惯上会使用样本方差这个指标来评估它们之间的差异程度。

如果我们使用软性类划分矩阵，则可以给出如下公式：

其中，而表示样本的第i类的集合，而D是样本与类差异的评估函数，那么根据上式显然我们能够得到相关目标函数的表达式：

对于上式而言，需要求解两组参数，按照之前机器学习的经验，我们可以交叉进行，即先固定一组参数，求解另一组，然后再优化另一组。

先对参数类X进行求导并令其结果为0，我们有：

根据公式3可得如下结果：

然后固定参数X（注意这是一个具有维度为C的向量）再求解参数u（这里没法对公式2求偏导了）。我们对于公式4的理解可以是这样的，先随机化归属度矩阵，然后计算类内的相关值，那么如何再求解参数u？一般我们只要考虑对于每个样本而言，其到所属类的距离是不是大于某个阈值，如果是则将其在所属度矩阵的赋值变为1，而其它分量则改成0，否则修改成0，而将其所属度值加到别的分量上（其实最终归属度矩阵都会变成One-Hot-Vector）。