最适合包含 10 维数值数组的数据集的聚类方法

Posted

技术标签:

【中文标题】最适合包含 10 维数值数组的数据集的聚类方法【英文标题】:Most suitable clustering method for a dataset containing 10 dimension numerical arrays 【发布时间】:2016-06-21 01:30:18 【问题描述】:

我有一个具有以下结构的数据集(约 4k 个样本):

样本类型:字符串 - 非常通用 示例子类型: 字符串 样品型号:数字 - 可能是无 签名:数字数组[10] sampleID:字符串 - 唯一 ID

我想根据“签名”对样本进行聚类(我有一个函数可以测量一个签名与另一个签名之间的“距离”)。这样当我遇到新签名时,我就可以告诉样本属于哪个类型/子类型。 我应该使用哪种算法?

附: (我正在使用 python 和 scikit-learn),我还需要以某种方式可视化结果。

【问题讨论】:

使用哪种算法取决于数据的属性。你的第一站当然应该是scikit-learn.org/stable/auto_examples/cluster/… 【参考方案1】:

既然你已经有了一个距离函数,而且你的数据集很小,那就使用 HAC,所有聚类算法的祖父。

【讨论】:

以上是关于最适合包含 10 维数值数组的数据集的聚类方法的主要内容,如果未能解决你的问题,请参考以下文章

聚类算法研究

哪种聚类算法最适合聚类一维特征?

DBSCAN密度聚类

机器学习中常用的聚类数据集生成方法

聚类(Clustering)

聚类分析方法都有哪些