Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour
Posted songyuc
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour相关的知识,希望对你有一定的参考价值。
1 介绍
此文章是我在NFNet上读到的论文,NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型;
2 原文链接
《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》
3 论文译读
深度学习在拥有大型模型和大规模数据集下蓬勃发展。然而,更大的神经网络和数据集会导致更长的训练时间,于是阻碍进一步的研究和开发。分布式同步SGD为该问题提供了一个潜在的解决方案,将SGD微批次分配到并行进程池上运行。然而,为了发挥该架构的有效性,每个进程的工作负载必须很大,才能使SGD微批次的大小获得较大的增长。在本文中,我们通过实验证明了在ImageNet数据集上大的minibatche也会存在优化困境,不过这些问题不需要担心,因为训练后的网络显示出良好的泛化性能。具体来说,作者需要证实在8192批次大小进行训练的情况下也不会有精度的损失。为了实现这个这个目标,作者使用了一种无超参的线性增长规则来调节学习率,将学习率设置成基于批次大小的函数,以及提出一种新的预热策略来克服训练早期中的优化问题。通过使用这些简单的技巧,作者基于Caffe2使用批次大小8192来在256个GPU上训练对ResNet-50训练一个小时,其精度与使用较小批次训练的结果相当。在使用商用GPU的情况下,作者实现了约90%的效率的增长,将训练从8个GPU迁移到了256个GPU上。本文的发现可以使得高效训练互联网级别的数据成为可能。
以上是关于Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour的主要内容,如果未能解决你的问题,请参考以下文章