集群标签比较 - 标签匹配

Posted

技术标签:

【中文标题】集群标签比较 - 标签匹配【英文标题】:Cluster labels comparison - label match 【发布时间】:2020-12-14 00:53:30 【问题描述】:

我正在比较不同的聚类方法。例如使用 K-means 进行凝聚聚类、从样本中进行预测等。

我在 python 中,主要使用 pandas 和 sklearn。

当然,我遇到的问题是每个算法分配给观测值的簇号都不同,我得到的结果与此类似:

我为 8 个集群手动执行此操作,但如果我有更多集群,那就是一场噩梦。

我认为这个想法是根据观察结果的共同点来重新标记结果。目前是比较相同数量的集群时应该更容易。

谢谢!

【问题讨论】:

【参考方案1】:

使用两个模型的输出构建一个contingency matrix。如果您想要相似类型的评分,请使用adjusted rand index.

【讨论】:

问题是集群的标签不一样。在一种聚类方法中,由于聚类方法不同,可以将一个聚类标记为 2,将另一个聚类标记为 5。我该如何解决这个问题,所以在比较之前,它们的标签指的是相同的集群? 你没有解决这个问题。您确保每个输入的样本顺序相同,并且 ARI/应急矩阵方法使用您的 _label 数组中的位置来确定它们的身份。

以上是关于集群标签比较 - 标签匹配的主要内容,如果未能解决你的问题,请参考以下文章

如何将集群标签与 Matlab 中的“基本事实”标签匹配

使用决策树比较 scikit 学习聚类

Kubernetes集群Node管理

Kubernetes集群Node管理

GKE terraform 的标签更改导致整个集群崩溃

K 表示置换簇