具有高度不平衡的多标签分类中的损失曲线

Posted

技术标签:

【中文标题】具有高度不平衡的多标签分类中的损失曲线【英文标题】:Loss curve in multilabel classification with high class imbalance 【发布时间】:2019-08-05 02:34:58 【问题描述】:

我正在研究多标签分类问题。班级高度不平衡。但是,我用类权重平衡了不平衡问题。我在输出层使用“二进制交叉熵”作为成本函数和 sigmoid 激活函数。但是,我对损失曲线感到困惑(因为验证损失和测试损失是平行的)。这是过拟合的情况吗?

【问题讨论】:

是的,这是一个12类多标签分类问题,其中一类包含4096个(实例最高的类)实例,另一类包含76个(实例最低的类)实例,其他类包含 76 到 4096 之间的实例。 【参考方案1】:

过度拟合的特征是当您的验证损失开始增加,而您的训练损失继续减少时,即:

(图片改编自 overfitting 上的***条目)

以下是一些其他表明过度拟合的图 (source):

另请参阅 SO 线程 How to know if underfitting or overfitting is occuring?。

显然,您的情节没有表现出这种行为,因此您没有过度拟合。

【讨论】:

以上是关于具有高度不平衡的多标签分类中的损失曲线的主要内容,如果未能解决你的问题,请参考以下文章

Keras - 带权重的多标签分类

在多标签图像分类任务中,哪个损失函数会收敛得很好?

用于不平衡多类多标签分类的神经网络

TensorFlow中具有稀疏标签的多标签图像分类?

Keras 中具有类权重的多标签分类

多标签分类损失函数