Scikit 聚类总是给出一个点聚类

Posted

技术标签:

【中文标题】Scikit 聚类总是给出一个点聚类【英文标题】:Scikit clustering always give one point cluster 【发布时间】:2015-03-10 04:24:42 【问题描述】:

我在我的数据集上使用 Scikit 聚类 kmeans。我正在使用 6 个集群,一切似乎都很好:

但是,在拟合 kmeans 之后,我立即在标签上进行分组并得到以下结果:

Length: 55003, dtype: int64
0  count    23110
1  count        1
2  count    10923
3  count    17949
4  count     1736
5  count     1284

我总是得到只有 1 个数据点的集群。如果我保存模型并在模型上再次预测数据,则预测本身也有一个数据点。那是怎么回事?这是 sci-kit 的错误吗?

【问题讨论】:

这很奇怪,你能发布你的数据吗?还有你用的是什么版本的numpy,sklearn? 【参考方案1】:

这是一个异常值。我从我的数据中删除了它,现在这些组是合适的。

【讨论】:

以上是关于Scikit 聚类总是给出一个点聚类的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch:地理点聚类

Kmean聚类聚类中的***术语

聚类聚类算法(K均值层次聚类DBSCAN)的对比与评估

阅读《基于转弯点聚类的航空飞行轨迹分析》笔记

使用 Mahout 对一个点进行聚类

如何使用高斯混合模型进行聚类?