深度学习——深层神经网络

Posted 记性不好,多记记吧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习——深层神经网络相关的知识,希望对你有一定的参考价值。

目录

  • 神经网络的符号表示
  • 为什么用深度来表示
  • 神经网络模块构建
  • 参数和超参数

一、神经网络的符号表示

$L = 4$ 层数为4

$n^{[l]}=5$ 第$l$层有5个神经元

$n^{[0]}=n_x=3$ 输入层有3个特征值

$a^{[l]}$第$l$层的激活函数

$X=a^{[0]}$     $a^{[L]}=\\widehat{y}$输出层

二、为什么用深度来表示

1)大脑学习:从边缘的细节开始学习,一层层递进到大一点的范围(比如人脸识别,先从学习眼睛、鼻子再到大一点的脸的轮廓)

2)电路理论:为了达到同样的效果,层数少的可能需要指数增长的单元数量(比如计算一个异或式子)

三、神经网络模块构建

前向传播

Input $a^{[l-1]}$

Output $a^{[l]}$, cache $z^{[l]}$

$z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$

$a^{[l]}=g^{[l]}(z^{[l]})$

向量化

$Z^{[l]}=w^{[l]}A^{[l-1]}+b^{[l]}$

$A^{[l]}=g^{[l]}(Z^{[l]})$

反向求导传播(第$l$层)

Input $da^{[l]}$

Output $da^{[l-1]}$,$dW^{[l]}$,$db^{[l]}$

$dz^{[l]}=da^{[l]}g^{[l]\'}(z^{[l]})$

$dw^{[l]}=dz^{[l]}a^{[l-1]}$

$db^{[l]}=dz^{[l]}$

$da^{[l-1]}=w^{[l]T}dz^{[l]}$

向量化,使用平均值

$dZ^{[l]}=dA^{[l]}g^{[l]\'}(Z^{[l]})$

$dW^{[l]}=\\frac{1}{m}dZ^{[l]}A^{[l-1]T}$

$db^{[l]}=\\frac{1}{m}dZ^{[l]}$

$dA^{[l-1]}=W^{[l]T}dZ^{[l]}$

四、参数VS超参数

参数:$W^{[1]}$, $b^{[1]}$等

超参数:学习率, 隐层数,激活函数,梯度下降的循环次数

超参数在某种程度上控制了参数的结果值

超参数的调整(经验性)方法:先尝试一个范围内的结果;勤检验且调整值

以上是关于深度学习——深层神经网络的主要内容,如果未能解决你的问题,请参考以下文章

深度学习——深层神经网络

TensorFlow(实战深度学习框架)----深层神经网络(第四章)

吴恩达深度学习课程第二课-改善深层神经网络

吴恩达《深度学习》第一门课深层神经网络

吴恩达《深度学习》第一门课深层神经网络

深度学习之神经网络算法介绍