PReLU与ReLU

Posted 去做点事情

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PReLU与ReLU相关的知识,希望对你有一定的参考价值。

PReLU激活函数,方法来自于何凯明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

PReLU激活

PReLU(Parametric Rectified Linear Unit), 顾名思义:带参数的ReLU。二者的定义和区别如下图: 
技术分享

如果ai=0,那么PReLU退化为ReLU;如果ai是一个很小的固定值(如ai=0.01),则PReLU退化为Leaky ReLU(LReLU)。 有实验证明,与ReLU相比,LReLU对最终的结果几乎没什么影响。

PReLU的几点说明

(1) PReLU只增加了极少量的参数,也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的,当不同channels使用相同的ai时,参数就更少了。

(2) BP更新ai时,采用的是带动量的更新方式,如下图:

技术分享

上式的两个系数分别是动量和学习率。 
需要特别注意的是:更新ai时不施加权重衰减(L2正则化),因为这会把ai很大程度上push到0。事实上,即使不加正则化,试验中ai也很少有超过1的。

(3) 整个论文,ai被初始化为0.25。



以上是关于PReLU与ReLU的主要内容,如果未能解决你的问题,请参考以下文章

CUDA优化之PReLU性能调优

TensorFlow学习笔记之 PReLU激活函数原理和代码

python实现并绘制 sigmoid函数,tanh函数,ReLU函数,PReLU函数

神经网络二值量化——ReActNet

[激活函数]啥是 ReLU

Haskell int 列表到字符串