最适合包含 10 维数值数组的数据集的聚类方法

Posted 2023-03-12

技术标签:

【中文标题】最适合包含 10 维数值数组的数据集的聚类方法【英文标题】：Most suitable clustering method for a dataset containing 10 dimension numerical arrays 【发布时间】：2016-06-21 01:30:18 【问题描述】：

我有一个具有以下结构的数据集（约 4k 个样本）：

样本类型：字符串 - 非常通用示例子类型：字符串样品型号：数字 - 可能是无签名：数字数组[10] sampleID：字符串 - 唯一 ID

我想根据“签名”对样本进行聚类（我有一个函数可以测量一个签名与另一个签名之间的“距离”）。这样当我遇到新签名时，我就可以告诉样本属于哪个类型/子类型。我应该使用哪种算法？

附：（我正在使用 python 和 scikit-learn），我还需要以某种方式可视化结果。

【问题讨论】：

使用哪种算法取决于数据的属性。你的第一站当然应该是scikit-learn.org/stable/auto_examples/cluster/… 【参考方案1】：

既然你已经有了一个距离函数，而且你的数据集很小，那就使用 HAC，所有聚类算法的祖父。

【讨论】：

以上是关于最适合包含 10 维数值数组的数据集的聚类方法的主要内容，如果未能解决你的问题，请参考以下文章