基于皮尔逊相关的聚类
Posted
技术标签:
【中文标题】基于皮尔逊相关的聚类【英文标题】:Clustering based on pearson correlation 【发布时间】:2015-08-27 00:16:04 【问题描述】:我有一个用例,我有 1 个月内每 15 分钟的流量数据。 这些数据是为网络中的各种资源收集的。
现在我需要对相似的资源进行分组(基于 00 小时到 23:45 的流量使用模式)。
检查两个资源是否具有相似流量行为的一种方法是,我可以对所有资源使用 Pearson 相关系数并创建 N*N 矩阵。
我的问题是我应该应用哪种方法来集群相似的资源? K-Means 聚类中的现有方法是基于欧几里德距离的。我可以使用哪种算法根据模式的相似性进行聚类?
欢迎任何想法或可能的解决方案的链接。我想用Java实现。
【问题讨论】:
【参考方案1】:Pearson 相关与均值不兼容。因此,不能使用 k-means - 它适用于最小二乘法,但不适用于相关性。
相反,只需使用分层凝聚聚类,它可以很好地与 Pearson 相关矩阵一起使用。或 DBSCAN:它也适用于任意距离函数。您可以设置一个阈值:绝对相关性,例如+0.75,可能是 epsilon 的理想值。但要了解您的距离函数,HAC 使用的树状图可能更容易。
请注意,Pearson 不是为常量模式定义的。如果你有一个使用率为 0 的资源,你的距离将是不确定的。
【讨论】:
Yes hierarchial is rightway ,这也是我发现的。但是我们如何处理异常值呢?以上是关于基于皮尔逊相关的聚类的主要内容,如果未能解决你的问题,请参考以下文章