论文笔记-Batch Normalization

Posted slim1017

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记-Batch Normalization相关的知识,希望对你有一定的参考价值。

论文题目:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

首先看看博客http://blog.csdn.net/happynear/article/details/44238541中最开始介绍的:

为什么中心化,方差归一化等,可以加快收敛?

补充一点:输入x集中在0周围,sigmoid更可能在其未饱和区域,梯度相对更大一些,收敛更快。

 

Abstract

1.深层网络训练时,由于模型参数在不断修改,所以各层的输入的概率分布在不断变化,这使得我们必须使用较小的学习率及较好的权重初值,导致训练很慢,同时也导致使用saturating nonlinearities 激活函数(如sigmoid,正负两边都会饱和)时训练很困难。

这种现象加 internal covariate shift ,解决办法是:对每层的输入进行归一化。

本文方法特点是 :making normalization a part of the model architecture and performing the normalization for each training mini-batch

Batch Normalization 让我们可以使用更大的学习率,初值可以更随意。它起到了正则项的作用,在某些情况下,有它就不需要使用Dropout了。

在Imagenet上, achieves the same accuracy with 14 times fewertraining steps

 

Introduction

1. SGD:

用minibatch去近似整个训练集的梯度,在并行计算下,m个合成一个batch计算比单独计算m次快很多。

以上是关于论文笔记-Batch Normalization的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记-Batch Normalization

论文笔记:Batch Normalization

论文笔记:Succinct Zero-Knowledge Batch Proofs for Set Accumulators

论文笔记:On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

MABN论文的译读笔记

网络优化Batch Normalization(inception V2) 论文解析(转)