当给定特定类的 0 个样本时,如何对不平衡的数据集进行分类?

Posted

技术标签:

【中文标题】当给定特定类的 0 个样本时,如何对不平衡的数据集进行分类?【英文标题】:How to classify an imbalanced dataset when given 0 samples of a particular class? 【发布时间】:2018-09-20 08:37:51 【问题描述】:

基本上我有一个训练集和测试集,我将在训练集上测试各种模型和特征选择,我知道训练集的输出标签,它们有 10 个不同的类别,但我被告知/假设其中一个特定类在训练集中有 0 个给定样本/出现次数。

我该如何处理?

我知道我可以对不平衡集使用过采样/欠采样,但如果其中一个类的出现次数为 0,这会有所帮助吗?

【问题讨论】:

【参考方案1】:

您的用例属于最初作为零数据学习引入的零样本学习领域。它依赖于以一种可以在给定样本之外泛化的方式构建基础类的可分离表示。这不是一个容易解决的问题,但根据您的数据和问题空间,它可能是可行的。一些帮助您入门的资源:

    Zero-Data Learning Deep Learning Book: Representation Learning

【讨论】:

以上是关于当给定特定类的 0 个样本时,如何对不平衡的数据集进行分类?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 sklearn 中对不平衡数据集执行交叉验证

mllib 如何在内部对不平衡数据集的类进行加权?

R语言中样本平衡的几种方法

使用多层感知器对不平衡数据集进行分类

数据不平衡的解决办法

如何处理机器学习分类问题的小型和不平衡数据集