我在哪里可以找到一组带有真实标签的基准聚类数据集?

Posted

技术标签:

【中文标题】我在哪里可以找到一组带有真实标签的基准聚类数据集?【英文标题】:Where can I find a good set of benchmark clustering datasets with ground truth labels? 【发布时间】:2014-05-02 10:18:38 【问题描述】:

我正在为一些已知的自然聚类寻找带有“ground truth”标签的聚类数据集,最好是高维的。

我在这里 (http://cs.joensuu.fi/sipu/datasets/) 找到了一些不错的候选对象,但只有 Glass 和 Iris 数据集有这些点的标签。我还找到了一些代码来生成高斯数据集(SynDECA)。我想要这个的主要原因是比较一些聚类方法的距离度量。很难使用外部(外部)评估标准,因为其中许多都偏向于欧几里得距离;而且有很多选择。

谢谢!

【问题讨论】:

为什么external度量应该偏向于欧几里得距离?内部偏向于凸聚类。 【参考方案1】:

UCI Machine Learning Repository有很多数据集。

【讨论】:

感谢您的回复。我快速查看了这个 repo,但找不到具有“已知”自然聚类的数据集。你有分类数据集;但是共享一个类的数据可能不在同一个集群中。我需要的是一个已生成或已知包含内在“正确”聚类(如 Iris 或 Glass 集)的数据集。属性 1...属性 n 之类的东西,然后是一个附加列,上面写着集群 #。老实说,我不确定这样的数据是否真的存在;因为“正确”的聚类往往是主观的(尤其是对于高清数据)。 我不得不承认你想要的可能不是真的。当我想到“正确的聚类”时,在我看来这相当于一个分类问题。 集群!=类。大多数时候,您将在一个类中拥有集群,而类可能又会集群。考虑 iris 数据集:其中两个 iris 物种明显聚集。 @Anony-Mousse 但是,如果您有一组“正确”的集群,从某种意义上说是基于未包含在预测变量集中的一些观察到的特征,那不是集群而是一堂课,不是吗?也许我没有正确理解 user3457088 的要求。 我不知道有人标记了实际集群的任何数据集。通常,标记是面向目标的(即类),而不是像“这些对象似乎比其他对象更密切相关”那样具有观察性,即使其他对象具有相同的功能。【参考方案2】:

除了提到的SIPU 和UCI ML 存储库之外,以下是其他集群基准测试聚合器的列表:

https://www.uni-marburg.de/fb12/arbeitsgruppen/datenbionik/data (FCPS) http://glaros.dtc.umn.edu/gkhome/cluto/cluto/download(克鲁托,变色龙) https://ifcs.boku.ac.at/repository/ (IFCS) https://github.com/deric/clustering-benchmark(Tomas Barton 的仓库) https://data.world/datasets/clustering(数据世界) https://github.com/gagolews/clustering_benchmarks_v1(Marek Gagolewski 的存储库)

【讨论】:

以上是关于我在哪里可以找到一组带有真实标签的基准聚类数据集?的主要内容,如果未能解决你的问题,请参考以下文章

matlab中,用kmeans聚类之后,得到各个数据的标签,但是这个是乱序的,和真实的标签不匹配?

scikit-learn 中聚类的混淆矩阵

聚类搜索短语

K 表示置换簇

比较具有基本事实的聚类

如何分析没有真实标签的聚类的完整性?