使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?

Posted

技术标签:

【中文标题】使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?【英文标题】:How long will it take to train the VGG-16 model on IMAGENET using GOOGLE COLAB TPU? 【发布时间】:2020-02-23 05:39:37 【问题描述】:

只是好奇,使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG16 模型需要多长时间?如果有人可以向我解释他们为得到答案所做的计算,那就太好了!

【问题讨论】:

【参考方案1】:

很难准确估计训练模型 e2e 需要多长时间。但是假设您只是在寻找一个非常粗略的估计,我们可以首先注意到我们拥有的这个 ResNet50 实现 (code) 在大约 7.3 小时内运行到收敛(在 90 个 epoch 上训练的 76%+ top1 准确率) v2-8 TPU 设备。鉴于 VGG16 在步进时间上足够接近(https://github.com/jcjohnson/cnn-benchmarks#cnn-benchmarks),我希望它的收敛也与此成正比。但是,免责声明这是一个非常粗略的估计,实际性能还取决于实现的优化程度。

【讨论】:

【参考方案2】:

这里是官方TPU example。在包含 2990 张训练图像的优化 tfrecord 数据集上训练 VGG-16IMAGE_SIZE = [331, 331], batch_size=128, 12 epochs 需要 2m15sec。我认为使用1,281,167 ImageNet images 进行培训需要approximately 15 hours

【讨论】:

以上是关于使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?的主要内容,如果未能解决你的问题,请参考以下文章

使用 TPU 运行时在 Google Colab 上训练 Keras 模型时出错

为啥 Google Colab TPU 和我的电脑一样慢?

在 Google Colab Pro 中使用 TPU v3

Google Colab 中的 Keras 调谐器和 TPU

如何在谷歌colab中使用TPU

使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?