在 R 中的 PAM 聚类分析的平方和内计算

Posted

技术标签:

【中文标题】在 R 中的 PAM 聚类分析的平方和内计算【英文标题】:Compute within sum of squares from PAM cluster analysis in R 【发布时间】:2016-11-13 08:38:49 【问题描述】:

我正在用 R 中的 PAM 进行聚类分析。我用 vegdist() 计算了我的数据的高尔距离,用 pam() 计算了一个聚类变量效果很好。现在我需要一个度量来确定正确的 k。我知道的方法是直观地比较不同 ks 的内平方和。如何从一系列 PAM 迭代中获取 WSS 以比较绘图中的总和,类似于 kmeans 的这个示例? http://rstudio-pubs-static.s3.amazonaws.com/137758_a80b40255fdd440ab76b41a646a6c482.html#loops

【问题讨论】:

WSS 是 k-means 的目标函数,但您没有使用 k-means。为什么不使用 PAM 目标函数? 这样做的正确方法是什么? 请参阅 ?pam.object 以获取 objective 字段。 【参考方案1】:

PAM 不优化 WSS。 WSS 是 k-means 目标。

改为使用 PAM 目标(在文献中可能称为 TD?)

有关objective 字段,请参阅?[pam.object][1]

objective

pam算法第一步和第二步后的目标函数。

请注意,与 WSS 类似,objective 应该随着 k 的增加而减小。因此,您不能只选择最小值,而是应该在图中寻找拐点。

由于 PAM 是随机的,您可能希望多次运行每个 k,并只保留最佳结果。

【讨论】:

谢谢,PAM的理论背景和R函数的结构之间的联系是这里缺失的环节!

以上是关于在 R 中的 PAM 聚类分析的平方和内计算的主要内容,如果未能解决你的问题,请参考以下文章

R语言K-中心点聚类分析

R语言层次聚类:通过内平方和WSS选择最优的聚类K值可视化不同K下的BSS和WSS通过Calinski-Harabasz指数(准则)与聚类簇个数的关系获取最优聚类簇的个数

检索 R 中的最佳聚类数

R语言层次聚类:通过内平方和(Within Sum of Squares, WSS)选择最优的聚类K值以内平方和(WSS)和K的关系并通过弯头法(elbow method)获得最优的聚类个数

理论知识+Python实践 | 在聚类算法中,如何确定类簇的个数?

数据挖掘——聚类分析总结