聚类:如果因素不独立,会有问题吗?如何评价模型?
Posted
技术标签:
【中文标题】聚类:如果因素不独立,会有问题吗?如何评价模型?【英文标题】:Clustering: Is it a problem if factors are not independent? how to evaluate the model? 【发布时间】:2020-09-29 03:45:29 【问题描述】:我的数据如下:每次观察都是一个人,变量是在清晨、清晨、下午、傍晚和晚上(5 个变量)进行给定活动所花费的时间(以分钟为单位)。我将花费的时间转换为百分比,所以每个人的数据(即每一行)加起来会是 1
我想根据人们进行此活动的模式对他们进行分组。例如,一组可能是在清晨做大部分工作的人,晚上做一点工作的人,另一组可能是只在特定时间工作的人,等等。
我有几个关于如何解决这个问题的问题:
1- 因为我使用的百分比加起来为 1,所以我认为我的变量不是独立的。依赖是集群的问题吗?
2- 在这里使用高斯混合模型而不是 KMeans 有什么特别的优势吗?
3- 对于评估聚类,0.4 是一个好的剪影分数吗?
4- 如果不同数量的聚类的轮廓分数从 0.4 到 0.49 不等,我是否可以选择一些聚类,它们不会给出最高的轮廓分数,但在每个样本中提供更平衡的观察数量(因为我更喜欢平衡课程)?
5- 有没有办法“折腾”聚类边界上的观测值,只是为了使聚类更密集并提高轮廓分数?
6- 减少变量的数量是个好主意吗?例如,我可以将清晨和傍晚合并为一个变量,因此我将有 4 个因子而不是 5 个。这通常有助于改善聚类吗?
感谢您的帮助!
【问题讨论】:
【参考方案1】:-
不,但是,更少的维度总是比更多的好,所以为什么不直接扔掉最后一个数字,从而将维度数量减少 1。
一般不。
The documentation 很好地说明了如何使用剪影分数。
见上文。
似乎是个很糟糕的主意。
一般来说,不会(举个极端的例子,将所有观察结果集中在一起不会产生有用的聚类(尽管它会产生非常紧密的聚类))。然而,层次聚类(谷歌)解决了这个问题。
【讨论】:
非常感谢!这很有帮助。您能否详细说明为什么#5 是个坏主意?如果目标是找到日常工作模式,我们不能说“90% 的用户遵循 3 种不同模式中的一种,我们将对其进行分析以比较他们的特点。剩下的 10% 的用户有不同的模式,不能被分为这 3 组”?以上是关于聚类:如果因素不独立,会有问题吗?如何评价模型?的主要内容,如果未能解决你的问题,请参考以下文章