在不平衡样本场景中为每个类提取相同数量的样本

Posted

技术标签:

【中文标题】在不平衡样本场景中为每个类提取相同数量的样本【英文标题】:extracting equal number of samples for each class in a unbalanced samples scenario 【发布时间】:2017-03-19 18:52:09 【问题描述】:

我有 2 个班级,A 和 B。每个班级的样本数量不平衡,比如 A 类有 500 个样本,B 类有 1000 个样本。

有没有办法为每个类提取平衡数量的样本,例如使用 scikit learn 或任何 Numpy 函数为 A 类和 B 类提取 300 个样本。

样本是前 5 列,标签/类是最后一列

1 2 3 4 5 1
2 3 4 2 3 1
4 0 5 4 3 1
4 5 9 2 4 2
5 9 5 3 9 2

我想要做的是在我的最终选择中拥有相同数量的两个类:

2 3 4 2 3 1
4 0 5 4 3 1
4 5 9 2 4 2
5 9 5 3 9 2

【问题讨论】:

什么是类?您可以为每个类和所需的数据集发布一个示例数据集(3-5 行)吗? 【参考方案1】:

如果你可以使用 Pandas,你可以使用 sample() 方法与 n 参数的值相同

演示:

In [364]: df1
Out[364]:
          a         b         c         d
0  0.774496  0.852985  0.257568  0.223773
1  0.630460  0.203675  0.305280  0.965628
2  0.408746  0.939827  0.801505  0.343216
3  0.578582  0.541716  0.451810  0.173890
4  0.210301  0.600485  0.184326  0.035092
5  0.583564  0.164262  0.958537  0.943357

In [365]: df2
Out[365]:
          a         b         c         d
0  0.340624  0.755825  0.569149  0.543630
1  0.004056  0.463891  0.556861  0.778607
2  0.171046  0.293104  0.317514  0.831424
3  0.370028  0.566356  0.895919  0.440559
4  0.148569  0.485086  0.299789  0.274720
5  0.137273  0.085598  0.874845  0.917356
6  0.356898  0.781540  0.091851  0.173430
7  0.495949  0.613337  0.512104  0.137251

In [366]: df1.sample(n=5)
Out[366]:
          a         b         c         d
3  0.578582  0.541716  0.451810  0.173890
4  0.210301  0.600485  0.184326  0.035092
1  0.630460  0.203675  0.305280  0.965628
0  0.774496  0.852985  0.257568  0.223773
5  0.583564  0.164262  0.958537  0.943357

In [367]: df2.sample(n=5)
Out[367]:
          a         b         c         d
2  0.171046  0.293104  0.317514  0.831424
5  0.137273  0.085598  0.874845  0.917356
6  0.356898  0.781540  0.091851  0.173430
3  0.370028  0.566356  0.895919  0.440559
0  0.340624  0.755825  0.569149  0.543630

【讨论】:

以上是关于在不平衡样本场景中为每个类提取相同数量的样本的主要内容,如果未能解决你的问题,请参考以下文章

过采样类不平衡训练/测试拆分“发现样本数量不一致的输入变量”解决方案?

解决正负样本数据不平衡

R语言中样本平衡的几种方法

样本数量不平衡问题方案(Focal Loss & Circle Loss)

类不平衡问题与SMOTE过采样算法

机器学习中的训练数据不平衡问题