在 R 中的 PAM 聚类分析的平方和内计算
Posted
技术标签:
【中文标题】在 R 中的 PAM 聚类分析的平方和内计算【英文标题】:Compute within sum of squares from PAM cluster analysis in R 【发布时间】:2016-11-13 08:38:49 【问题描述】:我正在用 R 中的 PAM 进行聚类分析。我用 vegdist() 计算了我的数据的高尔距离,用 pam() 计算了一个聚类变量效果很好。现在我需要一个度量来确定正确的 k。我知道的方法是直观地比较不同 ks 的内平方和。如何从一系列 PAM 迭代中获取 WSS 以比较绘图中的总和,类似于 kmeans 的这个示例? http://rstudio-pubs-static.s3.amazonaws.com/137758_a80b40255fdd440ab76b41a646a6c482.html#loops
【问题讨论】:
WSS 是 k-means 的目标函数,但您没有使用 k-means。为什么不使用 PAM 目标函数? 这样做的正确方法是什么? 请参阅?pam.object
以获取 objective
字段。
【参考方案1】:
PAM 不优化 WSS。 WSS 是 k-means 目标。
改为使用 PAM 目标(在文献中可能称为 TD?)
有关objective
字段,请参阅?[pam.object][1]
:
objective
pam算法第一步和第二步后的目标函数。
请注意,与 WSS 类似,objective
应该随着 k 的增加而减小。因此,您不能只选择最小值,而是应该在图中寻找拐点。
由于 PAM 是随机的,您可能希望多次运行每个 k,并只保留最佳结果。
【讨论】:
谢谢,PAM的理论背景和R函数的结构之间的联系是这里缺失的环节!以上是关于在 R 中的 PAM 聚类分析的平方和内计算的主要内容,如果未能解决你的问题,请参考以下文章
R语言层次聚类:通过内平方和WSS选择最优的聚类K值可视化不同K下的BSS和WSS通过Calinski-Harabasz指数(准则)与聚类簇个数的关系获取最优聚类簇的个数
R语言层次聚类:通过内平方和(Within Sum of Squares, WSS)选择最优的聚类K值以内平方和(WSS)和K的关系并通过弯头法(elbow method)获得最优的聚类个数