如何对不平衡的多类数据集进行欠采样? (Python)

Posted

技术标签:

【中文标题】如何对不平衡的多类数据集进行欠采样? (Python)【英文标题】:How to undersample a unbalanced multiclass Dataset? (Python) 【发布时间】:2020-09-06 02:18:12 【问题描述】:

我有一个包含 5 个类的不平衡数据集。现在我想要对其进行欠采样以使其更加平衡。但我找不到这个代码,只是为了解决二进制类问题。

有人有示例代码吗?

【问题讨论】:

这能回答你的问题吗? Scikit-learn balanced subsampling 如果您想获得更有效的帮助,您应该更具体地展示您的数据摘录、所需的结果和您目前拥有的代码,或者至少是对您的代码的引用。再谈。 【参考方案1】:

为此使用 SMOTE。以下是您欠采样的方式: https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html

【讨论】:

以上是关于如何对不平衡的多类数据集进行欠采样? (Python)的主要内容,如果未能解决你的问题,请参考以下文章

处理Auto-Sklearn中多类分类的不平衡数据集的最佳方法

如何在不过度采样的情况下平衡数据集

在python中平衡的多类分类(过采样)

如何在多类文本分类问题中平衡数据?

步骤用于高度不平衡的分类步骤。我应该对数据进行上采样和下采样,还是对不平衡的类进行上采样

测试折叠上的 CV 和欠采样