不平衡数据集的采样率

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了不平衡数据集的采样率相关的知识,希望对你有一定的参考价值。

我有一个不平衡的数据集,有两个类(+1-1)。积极因素仅为数据集的7%。

我想使用决策树进行分类。我已经尝试将负片下采样到:

  1. 同样大小的积极因素
  2. 积极的大小的两倍或三倍。

对于他们所有人来说,我得到了几乎相同的精确度,但是对于第一个样本(正数与负数相同的负数),对正数的回忆要好得多。但我觉得我在这里遗漏了一些东西,所以这次抽样有什么不好?

答案

对优势类进行下采样是相当普遍的。

但是你需要确保解决你的实际问题。

如果你将你的课程下采样到1:1的比例,这可能会使某些评估看起来很好,但这仍然反映了现实吗?您对分类器进行了培训,以便在50%的病例中预测阳性,但只有3%为阳性。如果“误报”花了你很多钱,这可能是一个问题。

以上是关于不平衡数据集的采样率的主要内容,如果未能解决你的问题,请参考以下文章

处理Auto-Sklearn中多类分类的不平衡数据集的最佳方法

如何计算分层 K 折交叉验证的不平衡数据集的误报率?

不平衡二元分类问题的最佳阈值

如何对不平衡的多类数据集进行欠采样? (Python)

数据不平衡不平衡采样调整分类阈值过采样欠采样SMOTEEasyEnsemble加入数据平衡的流程代价敏感学习BalanceCascade

采样之Gibbs采样