Tensorflow 在每个 epoch 结束时卡住了几秒钟

Posted

技术标签:

【中文标题】Tensorflow 在每个 epoch 结束时卡住了几秒钟【英文标题】:Tensorflow stuck for seconds at the end of every epoch 【发布时间】:2021-03-26 07:55:21 【问题描述】:

我正在通过 TFRecordDataset 训练神经网络。但是,在每个 epoch 结束时,即使用ETA: 0s,训练会卡住数十秒。作为参考,在大约 25GB 的数据集上完成一个 epoch 大约需要一分钟(在解析特征子集之前)。

我正在使用 Nvidia Titan RTX GPU 运行 TensorFlow 2.3.1。这是预期的行为吗?也许是由于输入管道中的预处理?该预处理是仅由 CPU 执行还是卸载到 GPU 上?谢谢!

【问题讨论】:

它对验证数据的计算预测和指标,不用担心 【参考方案1】:

如果您有一个验证集并且您正在使用model.fit(),那么这可能是计算损失和指标所需的时间。在大多数情况下,计算 80/20 分割的指标需要额外的 25%。

【讨论】:

以上是关于Tensorflow 在每个 epoch 结束时卡住了几秒钟的主要内容,如果未能解决你的问题,请参考以下文章

训练神经网络时,Tensorflow 完成后会自动恢复到最佳 epoch 吗?

TensorFlow入门:线性回归

TensorFlow 中的 step 和 epoch 有啥区别?

Tensorflow 资源耗尽但没有资源耗尽

大 HDF5 数据集,如何在每个 epoch 后有效地洗牌

如何将 Tensorflow 数据集 API 与训练和验证集一起使用