在数学上如何将分类结果与聚类结果进行比较

Posted 2023-03-13

技术标签:

【中文标题】在数学上如何将分类结果与聚类结果进行比较【英文标题】：Mathematically how does one compare classification result to clustering results 【发布时间】：2014-06-02 06:35:18 【问题描述】：

是否有标准方法来比较分类算法和聚类算法的结果（准确性）？我的数据只有两个真正的标签。当我对其运行二进制分类时很容易检查准确性，但是如果我运行聚类，我要求它将数据聚类为 5 组，我如何检查准确性并将其与二进制分类进行比较。我知道聚类不适用于（两个标签）数据，但如何在数学上证明这一点？

【问题讨论】：

【参考方案1】：

聚类成两个以上的聚类是进行 2 类分类的一种方法（只需选择每个聚类中更常见的标签作为聚类的预测标签）。然而，这是一种非常奇怪的方法，因为它会忽略标签，直到计算出聚类后的最后一刻。监督学习（即分类）提供了更强大的工具，例如用于分类的随机森林。

【讨论】：

谢谢，是的，我同意，分类绝对是更好的选择，但我需要了解如何比较数据集（恰好有两个标签）上的聚类和分类的准确性。我完全期望集群表现不佳，我只是想要一种方法来实际比较它是合适的。您选择一个通用标签的建议很有意义。我会试试的。再次感谢您。【参考方案2】：

不要将聚类作为分类方法

他们有非常不同的目标，真的不应该比较。分类是关于复制已知标签，您需要注意过度拟合、训练/测试拆分等。另一方面，聚类是探索性。任何真正探索性的方法将最终找不到任何东西，或者只会出现明显的结果。

通过尝试以与分类相同的方式对其进行评估，您“过度拟合”到产生明显（如果有的话）的聚类方法。

相反，通过查看结果来评估聚类。如果你学习从结果中学到了一些东西，那很好。如果没有，请重试。

不要试图在每件事上都贴上数字

有超过黑色、白色和 50 种灰色阴影。把所有东西都放在一个数字中是一个灰度的世界观……它很流行（“善与恶”的想法也是如此）；但在科学方面我们应该做得更好。

【讨论】：

以上是关于在数学上如何将分类结果与聚类结果进行比较的主要内容，如果未能解决你的问题，请参考以下文章