CSTC观点聚类算法的评价方法浅析
Posted 中国软件评测中心
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CSTC观点聚类算法的评价方法浅析相关的知识,希望对你有一定的参考价值。
1、聚类的理解
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“”,在和社会科学中,存在着大量的分类问题。又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。内容非常丰富,有法、有序样品聚类法、动态聚类法、、聚类法、聚类预报法等。
2、评价方法
2.1 purity
Purity方法一种较为简单的聚类评价方法,只需计算正确聚类的样本数占总样本数的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚类的集合ωK表示第k个聚类的集合。C = {c1, c2, . . . , cJ}是样本集合,cJ表示第J个样本。N表示样本总数。
2.2 RI
实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下:
其中TP是指被聚在一类的两个样本被正确分类了,TN是只不应该被聚在一类的两个样本被正确分开了,FP只不应该放在一类的样本被错误的放在了一类,FN只不应该分开的样本被错误的分开了。
2.3 F值
这是基于上述RI方法衍生出的一个方法。
RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法。
来源:中国软件评测中心 郭盈
以上是关于CSTC观点聚类算法的评价方法浅析的主要内容,如果未能解决你的问题,请参考以下文章