Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Posted 2021-09-13 songyuc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour相关的知识，希望对你有一定的参考价值。

1 介绍

此文章是我在NFNet上读到的论文，NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型；

2 原文链接

《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》

3 论文译读

深度学习在拥有大型模型和大规模数据集下蓬勃发展。然而，更大的神经网络和数据集会导致更长的训练时间，于是阻碍进一步的研究和开发。分布式同步SGD为该问题提供了一个潜在的解决方案，将SGD微批次分配到并行进程池上运行。然而，为了发挥该架构的有效性，每个进程的工作负载必须很大，才能使SGD微批次的大小获得较大的增长。在本文中，我们通过实验证明了在ImageNet数据集上大的minibatche也会存在优化困境，不过这些问题不需要担心，因为训练后的网络显示出良好的泛化性能。具体来说，作者需要证实在8192批次大小进行训练的情况下也不会有精度的损失。为了实现这个这个目标，作者使用了一种无超参的线性增长规则来调节学习率，将学习率设置成基于批次大小的函数，以及提出一种新的预热策略来克服训练早期中的优化问题。通过使用这些简单的技巧，作者基于Caffe2使用批次大小8192来在256个GPU上训练对ResNet-50训练一个小时，其精度与使用较小批次训练的结果相当。在使用商用GPU的情况下，作者实现了约90%的效率的增长，将训练从8个GPU迁移到了256个GPU上。本文的发现可以使得高效训练互联网级别的数据成为可能。

以上是关于Cite 1.7KAccurate, Large Minibatch SGD: Training ImageNet in 1 Hour的主要内容，如果未能解决你的问题，请参考以下文章