严重不平衡/倾斜的数据集群

Posted

技术标签:

【中文标题】严重不平衡/倾斜的数据集群【英文标题】:Heavily unbalanced/skewed data clusters 【发布时间】:2019-03-09 15:27:08 【问题描述】:

我在 Alteryx 上的 k-means 聚类结果遇到了一些问题。我正在尝试对我的大约 5000 个文本描述的数据集进行主题建模。经过数据清洗、解析和去除停用词和常用词后,我创建了一个包含 20 个词和大约 5000 个文档的文档术语矩阵。

在 Alteryx 上运行 K-Means 聚类后,无论我指示多少个聚类,所有聚类中总是只有 1 个文档,除了一个包含所有其他文档。例如:

2 个集群

第 1 组:19 个字 第 2 组:1 个字

3 个集群

第 1 组:18 个字 第 2 组:1 个字 第 3 组:1 个字

5 个集群

第 1 组:16 个字 第 2 组:1 个字 第 3 组:1 个字 第 4 组:1 个字 第 5 组:1 个字

无论我指出多少个集群,都会发生这种集群行为。寻找一些帮助来阐明这些结果并确定这些结果是否意味着我的数据有问题,或者我是否使用了正确的设置?

提前致谢!

【问题讨论】:

为什么只有20个字?你在使用 tf-idf 吗?您是在对单词或文档进行聚类吗?有关您的方法的更多详细信息可能会有所帮助。然而,它可能真的只是数据...... hi @user3658307 我计算了数据集中每个单词的出现频率,并选取了前 20 个最常用的单词(去除停用词和其他行业术语后)。我不确定这是否是 tf-idf 的一种形式? 您是否正在从某个地方实现某种特定的算法?你能发布更多信息吗,例如这 20 个单词是什么,文档中有哪些内容(例如书籍、报纸;有哪些类别等……)?这可能有助于诊断问题。另外,如果您不熟悉tfidf,我建议您了解它,因为这听起来不像您在做什么。它也可能有帮助。 【参考方案1】:

您是否在预处理后查看过您的数据?

现在可能很多文档都是空的,或者只包含一个单词。

除了找到常用词外,剩下的不多了。

【讨论】:

以上是关于严重不平衡/倾斜的数据集群的主要内容,如果未能解决你的问题,请参考以下文章

如何处理这种不平衡的倾斜数据集?

Xgboost 处理不平衡的分类数据

处理Auto-Sklearn中多类分类的不平衡数据集的最佳方法

机器学习解决数据不平衡问题

scikit-learn 中的不平衡

HIVE数据倾斜问题