relu函数为分段线性函数，为什么会增加非线性元素

Posted 2021-12-19 lzida9223

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了relu函数为分段线性函数，为什么会增加非线性元素相关的知识，希望对你有一定的参考价值。

我们知道激活函数的作用就是为了为神经网络增加非线性因素，使其可以拟合任意的函数。那么relu在大于的时候就是线性函数，如果我们的输出值一直是在大于0的状态下，怎么可以拟合非线性函数呢？

relu是非线性激活函数
题主的疑问在于，为什么relu这种“看似线性”（分段线性）的激活函数所形成的网络，居然能够增加非线性的表达能力。
1、首先什么是线性的网络，如果把线性网络看成一个大的矩阵M。那么输入样本A和B，则会经过同样的线性变换MA，MB（这里A和B经历的线性变换矩阵M是一样的）。
2、的确对于单一的样本A，经过由relu激活函数所构成神经网络，其过程确实可以等价是经过了一个线性变换M1，但是对于样本B，在经过同样的网络时，由于每个神经元是否激活（0或者Wx+b）与样本A经过时情形不同了（不同样本），因此B所经历的线性变换M2并不等于M1。因此，relu构成的神经网络虽然对每个样本都是线性变换，但是不同样本之间经历的线性变换M并不一样，所以整个样本空间在经过relu构成的网络时其实是经历了非线性变换的。
3、还有一种解释就是，不同样本的同一个feature，在通过relu构成的神经网络时，流经的路径不一样（relu激活值为0，则堵塞；激活值为本身，则通过），因此最终的输出空间其实是输入空间的非线性变换得来的。
4、更极端的，不管是tanh还是sigmoid，你都可以把它们近似看成是分段线性的函数（很多段），但依然能够有非线性表达能力；relu虽然只有两段，但同样也是非线性激活函数，道理与之是一样的。
5、relu的优势在于运算简单，网络学习速度快

解释的比较好

以上是关于relu函数为分段线性函数，为什么会增加非线性元素的主要内容，如果未能解决你的问题，请参考以下文章