多维数据聚类

Posted

技术标签:

【中文标题】多维数据聚类【英文标题】:Multi-dimensional data clustering 【发布时间】:2013-05-17 22:51:53 【问题描述】:

我是一名数据挖掘新手,需要一些高维数据集的帮助(子集如下所示)。它实际上有 30 个维度和数千行。

任务是查看它们是如何聚类的,以及是否可以从这些数据中计算出任何相似性指标。我研究过 SOM 和余弦相似度方法,但不确定如何解决这个问题。

附言我完全不熟悉 R 或类似的统计包,希望在基于 C#/.NET 的库中提供一些指针。

"ROW"   "CPG"   "FSD"   "FR"    "CV"    "BI22"  "MI99"  "ME"    "HC"    "L1"    "L2"    "TL"    
1   298 840 3.80    5.16    169.17  69  25.0    0.82    125 453 792 
2   863 676 4.09    4.28    97.22   63  18.5    0.85    172 448 571 
3   915 942 7.04    5.33    33.01   72  35.1    0.86    134 450 574 

【问题讨论】:

【参考方案1】:

我认为您正在寻找的是多维缩放图 (MDS),它非常简单,但您需要一个可以执行一些线性代数/优化工作的库。

第一步是计算一个距离矩阵,这是一个所有数据点之间的成对欧几里得距离矩阵。

第二步是找到 N 个向量或特征(通常为 2 个用于 2d 图),它们形成与第一步计算的距离矩阵最近的距离矩阵。这相当于从平方距离中获取具有 N 个最大特征值的特征向量矩阵。您也许可以找到一些可以用您选择的语言执行此操作的线性代数库。我一直使用 R 函数 cmdscale()为此: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html

【讨论】:

以上是关于多维数据聚类的主要内容,如果未能解决你的问题,请参考以下文章

大型多维数据的无监督聚类

R中多维度的聚类/匹配

KMeans 聚类多维特征

Python | 实现 K-means 聚类——多维数据聚类散点图绘制

基于多维时间序列形态特征的相似性动态聚类算法

Python中的光谱聚类和多维缩放