集群标签比较 - 标签匹配
Posted
技术标签:
【中文标题】集群标签比较 - 标签匹配【英文标题】:Cluster labels comparison - label match 【发布时间】:2020-12-14 00:53:30 【问题描述】:我正在比较不同的聚类方法。例如使用 K-means 进行凝聚聚类、从样本中进行预测等。
我在 python 中,主要使用 pandas 和 sklearn。
当然,我遇到的问题是每个算法分配给观测值的簇号都不同,我得到的结果与此类似:
我为 8 个集群手动执行此操作,但如果我有更多集群,那就是一场噩梦。
我认为这个想法是根据观察结果的共同点来重新标记结果。目前是比较相同数量的集群时应该更容易。
谢谢!
【问题讨论】:
【参考方案1】:使用两个模型的输出构建一个contingency matrix。如果您想要相似类型的评分,请使用adjusted rand index.
【讨论】:
问题是集群的标签不一样。在一种聚类方法中,由于聚类方法不同,可以将一个聚类标记为 2,将另一个聚类标记为 5。我该如何解决这个问题,所以在比较之前,它们的标签指的是相同的集群? 你没有解决这个问题。您确保每个输入的样本顺序相同,并且 ARI/应急矩阵方法使用您的_label
数组中的位置来确定它们的身份。以上是关于集群标签比较 - 标签匹配的主要内容,如果未能解决你的问题,请参考以下文章