对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?
Posted
技术标签:
【中文标题】对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?【英文标题】:Does the same CNN model needs different learning rates for different datasets?对于不同的数据集,同一个 CNN 模型是否需要不同的学习率? 【发布时间】:2020-02-25 22:36:01 【问题描述】:我使用卷积神经网络模型进行医学图像分割。当我训练模型时(例如 Tiramisu model1),我尝试了论文中推荐的相同学习率,但是,我得到了不好的结果。
我担心的是,当我们将模型用于不同的数据集时,我们是否需要找到不同的最佳学习率。例如,在这种情况下,他们使用 CamVid 数据集(街道、汽车、人等),而我使用的是医学图像。
【问题讨论】:
【参考方案1】:虽然在大多数情况下可能有一些参数集可以很好地工作(通常最终成为几个库的默认值),但最佳选择非常依赖于数据集。使用论文中的基线是一个很好的起点,但永远不要阻止您尝试更改它们。
另一个重要的一点是损失函数,它可能适用于分割汽车(它们很大,超过图像的 20%),可能不适用于文本(小,不到图像的 1%) )。
如果你有一个二元分割,玩弄阈值来决定像素是否是你想要的类也很重要。
【讨论】:
非常感谢@juvian。如果您知道任何提到这一点的论文,那将会很有帮助。 什么都没想到,在阅读了几本之后,您开始注意到许多使用几乎相同的架构,但它们的损失函数/参数发生了变化,从而产生了不同的结果。您可以尝试搜索不平衡的细分。 如果有人感兴趣,本文会提到这个。 arxiv.org/abs/1803.09820以上是关于对于不同的数据集,同一个 CNN 模型是不是需要不同的学习率?的主要内容,如果未能解决你的问题,请参考以下文章
使用NWPU VHR-10数据集训练Faster R-CNN模型
使用NWPU VHR-10数据集训练Faster R-CNN模型