具有高度不平衡的多标签分类中的损失曲线
Posted
技术标签:
【中文标题】具有高度不平衡的多标签分类中的损失曲线【英文标题】:Loss curve in multilabel classification with high class imbalance 【发布时间】:2019-08-05 02:34:58 【问题描述】:我正在研究多标签分类问题。班级高度不平衡。但是,我用类权重平衡了不平衡问题。我在输出层使用“二进制交叉熵”作为成本函数和 sigmoid 激活函数。但是,我对损失曲线感到困惑(因为验证损失和测试损失是平行的)。这是过拟合的情况吗?
【问题讨论】:
是的,这是一个12类多标签分类问题,其中一类包含4096个(实例最高的类)实例,另一类包含76个(实例最低的类)实例,其他类包含 76 到 4096 之间的实例。 【参考方案1】:过度拟合的特征是当您的验证损失开始增加,而您的训练损失继续减少时,即:
(图片改编自 overfitting 上的***条目)
以下是一些其他表明过度拟合的图 (source):
另请参阅 SO 线程 How to know if underfitting or overfitting is occuring?。
显然,您的情节没有表现出这种行为,因此您没有过度拟合。
【讨论】:
以上是关于具有高度不平衡的多标签分类中的损失曲线的主要内容,如果未能解决你的问题,请参考以下文章