python大战机器学习——聚类和EM算法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python大战机器学习——聚类和EM算法相关的知识,希望对你有一定的参考价值。
聚类的思想:将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分。
聚类的作用:
1)可以作为一个单独的过程,用于寻找数据的一个分布规律
2)作为分类的预处理过程。首先对分类数据进行聚类处理,然后在聚类结果的每一个簇上执行分类过程。
聚类的性能度量:
1)外部指标:该指标是由聚类结果与某个参考模型进行比较而获得的
Jaccard系数:它刻画了所有属于同一类的样本对同时在C和C*中隶属于同一类的样本对的概率 JC=a/(a+b+c)
FM指数:它刻画了在C中属于同一类的样本对中,同时属于C*的样本对的比例为p1;在C*中属于同一类的样本对中,同时属于C的样本对的比例为p2,FMI 就是p1和p2的几何平均 FMI=sqrt((a/(a+b))*(a/(a+c)))
2)内部指标:该指标直接由考察聚类结果而得到的,并不利用任何参考模型
以上是关于python大战机器学习——聚类和EM算法的主要内容,如果未能解决你的问题,请参考以下文章