哪种算法以及哪种超参数组合最适合对这些数据进行聚类?

Posted

技术标签:

【中文标题】哪种算法以及哪种超参数组合最适合对这些数据进行聚类?【英文标题】:Which algorithm and what combination of hyper-parameters will be the best to cluster this data? 【发布时间】:2019-10-17 02:46:42 【问题描述】:

我在学习非线性聚类算法时遇到了这个二维图。我想知道哪种聚类算法和超参数组合可以很好地聚类这些数据。

就像人类会聚集这 5 个尖峰一样。我希望我的算法能够做到这一点。 我尝试了 KMeans,但它只是水平或垂直聚类。我开始使用 GMM,但无法获得适合所需聚类的超参数。

【问题讨论】:

横向问题。你看到五个集群还是六个?还是大约五行? 【参考方案1】:

如果不起作用,请始终尝试先改进预处理。 k-means 等算法对缩放非常敏感,因此需要谨慎选择。

GMM 显然是您的首选。可能值得尝试不同的工具。 R 的 Mclust 非常慢。 Sklearn 的 GMM 有时不稳定。 ELKI 有点难上手,但它的 EM 通常给我最好的结果。

除了 GMM,可能值得尝试相关聚类。这些算法假设有一些流形(例如,一条线)存在集群。示例包括 ORCLUS、LMCLUS、CASH、4C……但在我看来,这些主要适用于合成玩具数据。

【讨论】:

【参考方案2】:

我会建议尝试hierarchical clustering。在凝聚式方法中,您将为每个点分配单独的集群,然后根据彼此之间的距离组合集群。

【讨论】:

【参考方案3】:

DBSCANGMM 应该可以很好地对此类数据进行聚类。

它是少数不将数据分类到circular clusters的聚类算法之一

使用 DBSCAN 进行聚类

使用 GMM 进行聚类

也请阅读this blog。它将解释不同的聚类技术。

【讨论】:

以上是关于哪种算法以及哪种超参数组合最适合对这些数据进行聚类?的主要内容,如果未能解决你的问题,请参考以下文章

哪种算法最适合在树中查找 LCA?

交易数据的数据挖掘分类——哪种算法最适合?

确定哪种方法最适合比较排序算法。小型数据收集的分治或招聘问题

按中心和半径对圆的数据进行聚类

哪种方法最适合批量插入?

哪种算法最适合 Burrows-Wheeler 变换?