关于聚类方法的问题

Posted

技术标签:

【中文标题】关于聚类方法的问题【英文标题】:questions on clustering methods 【发布时间】:2011-05-05 03:46:11 【问题描述】:

最近我开始研究数据挖掘中的聚类,并研究了顺序聚类和层次聚类以及 k-means。

我还读到了一个将k-means与其他两种聚类技术区分开来的说法,说k-means在处理名义属性方面不是很好,但是文中没有解释这一点。到目前为止,唯一的我可以看到的不同之处在于,对于 K-means,我们会提前知道我们需要精确的 K 个集群,而我们不知道其他两种聚类方法需要多少个集群。

那么任何人都可以在这里给我一些关于为什么存在这样的陈述的想法,即,k-means 在处理名义属性的示例时会出现这个问题,有没有办法克服这个问题?

提前致谢。

【问题讨论】:

【参考方案1】:

k-means 算法通过取集群中所有点的平均值来计算集群质心。如果参数是标称的,则不能取平均值。

有时名义值可以按某种顺序排列,然后映射到实际值。例如,一周中的几天可以映射到范围 [1.0 - 7.0],但有时这又是不可能的,例如具有值 [Windows、Linux、OSX] 的属性。

【讨论】:

请注意,我们通常在计算聚类质心时取离散变量的多数值。

以上是关于关于聚类方法的问题的主要内容,如果未能解决你的问题,请参考以下文章

scikits.learn 曲线拟合参数的聚类方法

关于机器学习中山峰聚类算法的说明

聚类算法的性能指标是啥? [关闭]

聚类分析方法都有哪些

Python中的聚类文本[关闭]

数据挖掘的常用方法功能和一个聚类分析应用案例