混合数据类型中的聚类

Posted

技术标签:

【中文标题】混合数据类型中的聚类【英文标题】:Clustering in Mixed Data Types 【发布时间】:2019-11-12 16:14:55 【问题描述】:

为什么我们不能使用欧几里得距离对分类变量进行聚类,以及为什么我们使用 Gower 距离对分类变量进行聚类。我只是在寻找一个简单的逻辑和两者之间用于分类变量聚类的工作差异。

我试图在 google 搜索中找到相同的内容,但找不到任何关于相同内容的具体和合乎逻辑的内容。

【问题讨论】:

【参考方案1】:

如果您的分类数据本质上是ordinal,则可以使用欧几里得距离,如果您对数据进行合理编码,您可以找到实际上有一定意义的欧几里得距离。例如,假设您正在处理以李克特量表进行的调查结果,并且您的水平是非常好、好、中性、差和非常差,如果您选择将它们编码为 5、4、3、2 和 1分别计算任何一对之间的距离,它们实际上是有意义的(坏和非常好的之间的距离是 3,这是有意义的)。

但另一方面,如果您的变量是分类变量,但 nominal 在本质上没有固有顺序,则计算距离没有意义。例如,假设您的特征是颜色,它们的值是红色、蓝色、绿色和粉红色。你将它们分别编码为 4,3,2 和 1。现在,即使您找到绿色和红色之间的距离并将其报告为 2,它实际上也没有任何意义,就像您不能说红色与绿色相差 2 个单位。

对于名义变量,如果您有混合数据,您可以使用 Hamming distance 或 Gower distance 或 Gower distance in R。

希望这会有所帮助!

【讨论】:

Parthasarathy 感谢您的输入,只是想知道在名义变量的情况下我们应该使用什么距离。 你可以使用hamming distance 然后,我已经更新了我的答案以适应这个。 Parthasarathy Subburaj ,您能否让我知道,Gower 距离究竟对分类变量有什么作用,而欧几里得距离无法测量相同的变量。这将使我对两者之间的区别有所了解。 这篇博客towardsdatascience.com/…对高尔距离的工作做了很好的解释。

以上是关于混合数据类型中的聚类的主要内容,如果未能解决你的问题,请参考以下文章

可理解的聚类

高斯混合模型(GMM)及EM算法的初步理解

R语言中不同类型的聚类方法比较

应用在机器学习中的聚类数据集产生方法

最适合包含 10 维数值数组的数据集的聚类方法

具有离散和连续属性的聚类算法?