使训练集产生无偏分类器的正例和负例的比例应该是多少?

Posted

技术标签:

【中文标题】使训练集产生无偏分类器的正例和负例的比例应该是多少?【英文标题】:What should be the proportion of positive and negative examples to make a training set result in an unskewed classifier? 【发布时间】:2014-11-27 04:29:33 【问题描述】:

我的训练数据集包含一个类的 46071 个示例和另一个类的 33606 个示例。这会导致分类器倾斜吗? 我正在使用 SVM,但不想使用 SVM 的选项来处理倾斜数据。

【问题讨论】:

【参考方案1】:

如果分类类别没有大致相等地表示(我认为没有精确值),则数据集是偏斜的。

您的数据集不是高度不平衡的数据集。无论如何,它可能会导致偏向于多数(可能是无趣的)类,尤其是使用准确度来评估分类器。

可以通过多种方式管理倾斜的训练集。两种常用的方法是:

在数据层面a form of re-sampling如

random oversampling 有替换, 随机欠采样, 定向过采样(不创建新示例,替换样本的选择是知情的而不是随机的), 定向欠采样, 在知情的情况下生成新样本进行过采样, 上述技术的组合。

在算法层面,调整各个类的成本,以对抗类不平衡。

即使您不喜欢这种方法,您也可以使用 SVM 更改类权重方案(例如 How should I teach machine learning algorithm using data with big disproportion of classes? (SVM))。您可能更喜欢这种方式而不是二次抽样,因为这意味着由于使用了特定的二次抽样,结果不会发生变化。

值得注意的是(来自Issue on Learning from Imbalanced Data Sets):

在某些领域(例如欺诈检测),类别不平衡是 问题的本质:通常很少有欺诈案例 与大量诚实使用设施相比。

但是,类别不平衡有时会发生在没有 内在的不平衡。

当数据收集过程受到限制时(例如,由于 出于经济或隐私原因),从而造成人为的不平衡。

相反,在某些情况下,数据比比皆是,而且它用于 科学家来决定选择哪些样本和数量。

此外,制作成本也可能存在不平衡 不同的错误,可能因情况而异。

所以这一切都取决于你的数据,真的!

更多细节:

Extreme rebalancing for SVMs: A case study - Bhavani Raskutt, Adam Kowalczyk Learning from umbalanced data - Haibo He, Edwardo Garcia - IEEE Transactions on Knowledge and Data Engineering

【讨论】:

以上是关于使训练集产生无偏分类器的正例和负例的比例应该是多少?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习算法须要注意的一些问题

在训练 SVM 时惩罚误报

直接从 mySQL 数据库训练分类器

目标检测中常见指标

[笔记]Logistic Regression理论总结

机器学习-类别不平衡问题