我们怎么能说聚类质量度量是好的?

Posted

技术标签:

【中文标题】我们怎么能说聚类质量度量是好的?【英文标题】:How can we say that a clustering quality measure is good? 【发布时间】:2015-05-03 11:42:09 【问题描述】:

轮廓宽度 (SW)、Davies-Bouldin 指数 (DB)、Calinski-Harabasz 指数 (CH) 和 Dunn 指数等众所周知的测量方法很少。 我们如何说聚类质量度量是好的? 是否有某种衡量聚类质量度量的指标?

还有,

“产生具有高 Dunn 指数的聚类的算法更可取”-***

“具有高轮廓值的对象被认为是很好的聚类”-***

“产生具有最小 Davies–Bouldin 指数的聚类集合的聚类算法被认为是最佳算法”-***

这些值应该是多高或多低?有公制数字吗?

谁能给我一个在数据集或 IRIS 数据集上使用聚类质量度量的小例子来说明特定的聚类质量度量是好的吗?

【问题讨论】:

【参考方案1】:

也许一个简单的起点是:

“集群中的元素是否相似,它们是否不同于 不同簇中的元素”。

显然有多种指标可以量化相似性与差异性 - 以及密度与距离等考虑因素。

斯坦福 NLP 项目有一个实用的参考资料:http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

【讨论】:

我的意思是你怎么能说特定的聚类质量度量 [CQM] 轮廓宽度/Davies-Bouldin 指数/Calinski-Harabasz 指数/Dunn 指数比其他的更好?

以上是关于我们怎么能说聚类质量度量是好的?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之性能度量

metric learning

模型性能度量

“余弦”度量在 sklearn 聚类算法中如何工作?

聚类(Clustering)定义聚类思想及形式距离的度量

覆盖聚类算法中的距离度量