python大战机器学习——聚类和EM算法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python大战机器学习——聚类和EM算法相关的知识,希望对你有一定的参考价值。

  聚类的思想:将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分。

  聚类的作用:

    1)可以作为一个单独的过程,用于寻找数据的一个分布规律

    2)作为分类的预处理过程。首先对分类数据进行聚类处理,然后在聚类结果的每一个簇上执行分类过程。

  聚类的性能度量:

    1)外部指标:该指标是由聚类结果与某个参考模型进行比较而获得的

      Jaccard系数:它刻画了所有属于同一类的样本对同时在C和C*中隶属于同一类的样本对的概率  JC=a/(a+b+c)

      FM指数:它刻画了在C中属于同一类的样本对中,同时属于C*的样本对的比例为p1;在C*中属于同一类的样本对中,同时属于C的样本对的比例为p2,FMI               就是p1和p2的几何平均  FMI=sqrt((a/(a+b))*(a/(a+c)))

    2)内部指标:该指标直接由考察聚类结果而得到的,并不利用任何参考模型

 

以上是关于python大战机器学习——聚类和EM算法的主要内容,如果未能解决你的问题,请参考以下文章

ML机器学习|KMeans聚类算法|EM算法

吴恩达机器学习-8-聚类知识

机器学习入门深入浅出聚类算法!如何对王者英雄聚类分析,探索英雄之间的秘密

机器学习EM原理和K-mean聚类

机器学习K-means聚类算法与EM算法

机器学习机器学习入门08 - 聚类与聚类算法K-Means