使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?
Posted
技术标签:
【中文标题】使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?【英文标题】:How long will it take to train the VGG-16 model on IMAGENET using GOOGLE COLAB TPU? 【发布时间】:2020-02-23 05:39:37 【问题描述】:只是好奇,使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG16 模型需要多长时间?如果有人可以向我解释他们为得到答案所做的计算,那就太好了!
【问题讨论】:
【参考方案1】:很难准确估计训练模型 e2e 需要多长时间。但是假设您只是在寻找一个非常粗略的估计,我们可以首先注意到我们拥有的这个 ResNet50 实现 (code) 在大约 7.3 小时内运行到收敛(在 90 个 epoch 上训练的 76%+ top1 准确率) v2-8 TPU 设备。鉴于 VGG16 在步进时间上足够接近(https://github.com/jcjohnson/cnn-benchmarks#cnn-benchmarks),我希望它的收敛也与此成正比。但是,免责声明这是一个非常粗略的估计,实际性能还取决于实现的优化程度。
【讨论】:
【参考方案2】:这里是官方TPU example。在包含 2990 张训练图像的优化 tfrecord 数据集上训练 VGG-16
,IMAGE_SIZE = [331, 331], batch_size=128, 12 epochs
需要 2m15sec。我认为使用1,281,167 ImageNet images
进行培训需要approximately 15 hours
。
【讨论】:
以上是关于使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间?的主要内容,如果未能解决你的问题,请参考以下文章
使用 TPU 运行时在 Google Colab 上训练 Keras 模型时出错