是否应该在使用 model.load_weights() 之前运行 model.compile()，如果模型只是稍微改变了说 dropout？

Posted 2023-02-16

技术标签:

【中文标题】是否应该在使用 model.load_weights() 之前运行 model.compile()，如果模型只是稍微改变了说 dropout？【英文标题】：should model.compile() be run prior to using model.load_weights(), if model has been only slightly changed say dropout? 【发布时间】：2018-10-26 07:27:42 【问题描述】：

通过数据集进行近 24 个 epoch 的训练和验证，间歇性地一次 8 个 epoch，并在每个间隔后累积保存权重。

我观察到前 16 个时期的训练和测试损失不断下降，之后训练损失继续下降而测试损失上升，所以我认为这是过度拟合的情况。

为此，我尝试使用在 16 个 epoch 后保存的权重恢复训练，超参数的变化说 增加 dropout_rate 一点。因此，我使用新的 dropout 重新运行密集和转换块，以获得具有相同序列和可学习参数计数的相同架构。

现在，当我使用 model.load_weights() 并此后编译 为我的新模型（带有新的 dropout）分配以前的权重时。我看到训练损失甚至更高，最初应该是（明显地随着训练期间随机节点不活动的增加），但后来它的表现也很不令人满意，所以我怀疑在加载预训练权重后进行编译可能会破坏性能？

model.load_weights() & model.compile() 的推理和推荐顺序是什么？我真的很感激对上述案例的任何见解。

【问题讨论】：

你试过先编译再加载权重吗？从理论上讲，这无关紧要，很可能您增加的辍学率会降低性能。从头开始训练以确认这一点可能会更稳定。不，在重新定义层之后，我首先加载权重然后编译它，以确定它从之前的训练中获得的准确性。否则对于 model.evaluate() 它会抛出一个错误，模型需要在评估之前进行编译。我怀疑需要提高 dropout，因为大约权重数为 127k，出于同样的原因，我正在间歇性地训练、保存和加载权重，因为每次从头开始训练多个 epoch 都需要很长时间。 【参考方案1】：

model.compile() 方法不会以任何方式触及权重。

其目的是创建一个符号函数，将损失和优化器添加到模型的现有函数中。

您可以根据需要随时编译模型多次，并且您的权重将保持不变。

编译的可能后果

如果您有一个模型，在某些时期训练有素，那么它的优化器（取决于您为它选择的类型和参数）也将针对特定时期进行训练。

编译会使您失去经过训练的优化器，并且由于学习率不适合模型的当前状态，您的第一批训练可能会遇到一些不好的结果。

除此之外，编译不会造成任何伤害。

【讨论】：

是的，我怀疑看到验证的突然下降以及第一个时期的训练准确性。这很有见地。谢谢丹尼尔。

以上是关于是否应该在使用 model.load_weights() 之前运行 model.compile()，如果模型只是稍微改变了说 dropout？的主要内容，如果未能解决你的问题，请参考以下文章