训练loss不下降原因集合

Posted 2021-12-01 datou-swag

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了训练loss不下降原因集合相关的知识，希望对你有一定的参考价值。

原文：https://blog.csdn.net/jacke121/article/details/79874555

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或改变批量数目; (batch=50, lr=0.001改成100和0.0001)

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

DEBUG---https://blog.csdn.net/u010848594/article/details/80576119

神经网络具有两大能力：一、学习能力，指在训练集上精度。二、泛化能力，指在测试集上精度。

对于一个大型神经网络在一个大数据集上跑，LOSS持续不降，第一步先减小数据量，比方说只在单张图片上跑，使用小epochsize，观察每次LOSS下降情况，此时如果LOSS还是不下降说明网络没有学习能力，应该调整模型，一般是先把网络规模缩小，因为任何一个网络都会有学习能力，然而此时你的网络没有学习能力，则一定是你的模型有地方出错，而神经网络又是个黑盒，你只能摘除一部分网络，以排除“坏的”部分。此时网络的规模小了，又在一个相对较小的数据集上跑，必然会有个很好的学习能力。此时可以不断增加网络部件，来提高学习能力。接下来是在保证网络具有学习能力的基础上进行的，是使得网络具有泛化能力，可以通过扩大网络规模，与此同时增大数据量，可以使得网络具有很好的泛化能力。

---------------------

以上是关于训练loss不下降原因集合的主要内容，如果未能解决你的问题，请参考以下文章

如何解决神经网络训练时loss不下降的问题

Train Loss保持下降，Valid Loss大幅度波动下降

cnn训练准确率很高，测试准确率很低（loss有一直下降）是为啥?

训练网络中出现loss等于Nan的情况几种思路

深度学习训练集和测试集loss损失值关系

Tensorflow Object Detection - mAP 稳定，但 Total Loss 正在下降。继续训练？