学习率衰减局部最优Batch归一化Softmax回归

Posted 劳埃德·福杰

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习率衰减局部最优Batch归一化Softmax回归相关的知识,希望对你有一定的参考价值。

目录

1.学习率衰减(Learning rate decay)

在训练初期,梯度下降的步伐大一点,开始收敛的时候,小一些的学习率能让步伐小一些。

1 epoch = 遍历一遍训练集

学习率衰减公式

:假设衰减率decayrate = 1,=0.2

epochNum

α

1

0.1

2

0.067

3

0.05

4

0.04

其它学习率衰减公式:α=0.(指数衰减)。。。等等

2. 局部最优(local optima)的问题

梯度下降的时候可能会困在一个局部最优中,而不会抵达全局最优。

3.Batch归一化(Batch Normalization)

我们知道,训练一个模型,比如logistic回归,归一化输入特征可加速学习过程。

对于更深一点的模型,也可以归一化隐藏层的输出,比如归一化(代入激活函数就是),以便更有效率地训练,

4.Softmax回归(Softmax regression)

不同于logistic回归,解决的是二分类问题,Softmax回归能解决多分类问题,即识别多种分类中的一个。

假设要区分3个类别(A,B,C),那么神经网络的输出层要有4个神经单元(分别输出"A,B,C,其它"这四类的识别概率)。

最后一层layer L的神经元执行操作如下:

是上一层的输出。

举例:

训练一个Softmax分类器:

正向传播:从输入层到输出层,依次计算并存储模型的参数。

反向传播:从输出层到输入层,依次计算参数的梯度,来更新参数。

以上是关于学习率衰减局部最优Batch归一化Softmax回归的主要内容,如果未能解决你的问题,请参考以下文章

学习率衰减局部最优Batch NormSoftmax回归

Batch Normalization层

Tensorflow:权重衰减与 logits 归一化

为啥需要softmax函数?为啥不简单归一化?

Hulu机器学习问题与解答系列 | 二十三:神经网络训练中的批量归一化

深度学习:批归一化和层归一化Batch NormalizationLayer Normalization