多维数据聚类
Posted
技术标签:
【中文标题】多维数据聚类【英文标题】:Multi-dimensional data clustering 【发布时间】:2013-05-17 22:51:53 【问题描述】:我是一名数据挖掘新手,需要一些高维数据集的帮助(子集如下所示)。它实际上有 30 个维度和数千行。
任务是查看它们是如何聚类的,以及是否可以从这些数据中计算出任何相似性指标。我研究过 SOM 和余弦相似度方法,但不确定如何解决这个问题。
附言我完全不熟悉 R 或类似的统计包,希望在基于 C#/.NET 的库中提供一些指针。
"ROW" "CPG" "FSD" "FR" "CV" "BI22" "MI99" "ME" "HC" "L1" "L2" "TL"
1 298 840 3.80 5.16 169.17 69 25.0 0.82 125 453 792
2 863 676 4.09 4.28 97.22 63 18.5 0.85 172 448 571
3 915 942 7.04 5.33 33.01 72 35.1 0.86 134 450 574
【问题讨论】:
【参考方案1】:我认为您正在寻找的是多维缩放图 (MDS),它非常简单,但您需要一个可以执行一些线性代数/优化工作的库。
第一步是计算一个距离矩阵,这是一个所有数据点之间的成对欧几里得距离矩阵。
第二步是找到 N 个向量或特征(通常为 2 个用于 2d 图),它们形成与第一步计算的距离矩阵最近的距离矩阵。这相当于从平方距离中获取具有 N 个最大特征值的特征向量矩阵。您也许可以找到一些可以用您选择的语言执行此操作的线性代数库。我一直使用 R 函数 cmdscale()
为此:
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html
【讨论】:
以上是关于多维数据聚类的主要内容,如果未能解决你的问题,请参考以下文章