对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?

Posted

技术标签:

【中文标题】对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?【英文标题】:Does the same CNN model needs different learning rates for different datasets?对于不同的数据集,同一个 CNN 模型是否需要不同的学习率? 【发布时间】:2020-02-25 22:36:01 【问题描述】:

我使用卷积神经网络模型进行医学图像分割。当我训练模型时(例如 Tiramisu model1),我尝试了论文中推荐的相同学习率,但是,我得到了不好的结果。

我担心的是,当我们将模型用于不同的数据集时,我们是否需要找到不同的最佳学习率。例如,在这种情况下,他们使用 CamVid 数据集(街道、汽车、人等),而我使用的是医学图像。

【问题讨论】:

【参考方案1】:

虽然在大多数情况下可能有一些参数集可以很好地工作(通常最终成为几个库的默认值),但最佳选择非常依赖于数据集。使用论文中的基线是一个很好的起点,但永远不要阻止您尝试更改它们。

另一个重要的一点是损失函数,它可能适用于分割汽车(它们很大,超过图像的 20%),可能不适用于文本(小,不到图像的 1%) )。

如果你有一个二元分割,玩弄阈值来决定像素是否是你想要的类也很重要。

【讨论】:

非常感谢@juvian。如果您知道任何提到这一点的论文,那将会很有帮助。 什么都没想到,在阅读了几本之后,您开始注意到许多使用几乎相同的架构,但它们的损失函数/参数发生了变化,从而产生了不同的结果。您可以尝试搜索不平衡的细分。 如果有人感兴趣,本文会提到这个。 arxiv.org/abs/1803.09820

以上是关于对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?的主要内容,如果未能解决你的问题,请参考以下文章

使用DOTA数据集训练Faster R-CNN模型

使用DOTA数据集训练Faster R-CNN模型

使用NWPU VHR-10数据集训练Faster R-CNN模型

使用NWPU VHR-10数据集训练Faster R-CNN模型

使用NWPU VHR-10数据集训练Faster R-CNN模型

小白学习kears教程四Keras基于数字数据集建立基础的CNN模型