最适合包含 10 维数值数组的数据集的聚类方法
Posted
技术标签:
【中文标题】最适合包含 10 维数值数组的数据集的聚类方法【英文标题】:Most suitable clustering method for a dataset containing 10 dimension numerical arrays 【发布时间】:2016-06-21 01:30:18 【问题描述】:我有一个具有以下结构的数据集(约 4k 个样本):
样本类型:字符串 - 非常通用 示例子类型: 字符串 样品型号:数字 - 可能是无 签名:数字数组[10] sampleID:字符串 - 唯一 ID
我想根据“签名”对样本进行聚类(我有一个函数可以测量一个签名与另一个签名之间的“距离”)。这样当我遇到新签名时,我就可以告诉样本属于哪个类型/子类型。 我应该使用哪种算法?
附: (我正在使用 python 和 scikit-learn),我还需要以某种方式可视化结果。
【问题讨论】:
使用哪种算法取决于数据的属性。你的第一站当然应该是scikit-learn.org/stable/auto_examples/cluster/… 【参考方案1】:既然你已经有了一个距离函数,而且你的数据集很小,那就使用 HAC,所有聚类算法的祖父。
【讨论】:
以上是关于最适合包含 10 维数值数组的数据集的聚类方法的主要内容,如果未能解决你的问题,请参考以下文章