《neural network and deep learning》题解——ch02 反向传播

Posted 小爷毛毛(卓寿杰)

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《neural network and deep learning》题解——ch02 反向传播相关的知识,希望对你有一定的参考价值。

重磅推荐专栏: 《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!

http://blog.csdn.net/u011239443/article/details/74859614

2.4 反向传播的四个基本方程

( B P 1 ) : δ L = ∇ a C ⊙ σ ′ ( z L ) \\large \\colorblue (BP1):δ ^L = ∇ _a C ⊙ σ ′ (z ^L ) (BP1)δL=aCσ(zL)
( B P 2 ) : δ l = ( ( w l + 1 ) T δ l + 1 ) ⊙ σ ′ ( z l ) \\large \\colorblue (BP2):δ ^l = ((w ^l+1 ) ^T δ ^l+1 ) ⊙ σ ′ (z^ l ) (BP2):δl=((wl+1)Tδl+1)σ(zl)
( B P 3 ) : ∂ C ∂ b l j = δ j l \\large \\colorblue (BP3): \\frac∂C ∂b_lj = δ_j^l (BP3):bljC=δjl
( B P 4 ) : ∂ C ∂ w j k l = a k l − 1 δ j l \\large \\colorblue (BP4): \\frac∂C ∂w^l_jk = a_k^l-1δ_j^l (BP4):wjklC=akl1δjl

问题一:

另一种反向传播方程的表示方式: 我已经给出了使用 Hadamard 乘积的反向传播的公式(尤其是 (BP1) 和 (BP2))。如果你对这种特殊的乘积不熟悉,可能会有一些困惑。下面还有一种表示方式,那就是基于传统的矩阵乘法,某些读者可能会觉得很有启发。(1)证明(BP1) 可以写成:

δ L = Σ ′ ( z L ) ∇ a C \\large \\colorblue δ^L = Σ ′ (z^L )∇_a C δL=Σ′(zL)aC

其中$ Σ ′ (z^L ) 是一个方阵 , 其对⻆线的元素是 是一个方阵,其对⻆线的元素是 是一个方阵,其对线的元素是σ ′ (z_j^L )$,其他的元素均是 0。注意,这个矩阵通过一般的矩阵乘法作用在 ∇ a C ∇_a C aC 上。

设: ∇ a C = ( c 1 c 2 . . . c n ) \\large \\colorblue 设 :∇ _a C = \\beginpmatrix c1\\\\ c2\\\\...\\\\cn \\endpmatrix 设:aC= c1c2...cn
σ ′ ( z L ) = ( σ 1 σ 2 . . . σ n ) \\large \\colorblueσ ′ (z ^L ) = \\beginpmatrix σ1\\\\ σ2\\\\...\\\\σn \\endpmatrix σ(zL)= σ1σ2...σn
$\\large \\colorblue则: (BP1):δ ^L = ∇ _a C ⊙ σ ′ (z ^L ) = \\beginpmatrix c1σ1\\ c2σ2\\…\\cnσn \\endpmatrix $

$\\large \\colorblue 由: Σ ′ (z^L ) =
\\beginpmatrix
σ_1\\
&σ_2 & & \\text0\\
&&…\\
& \\text0 &&σ_n-1\\
&&&& σ_n
\\endpmatrix
$
得: Σ ′ ( z L ) ∇ a C = ( σ 1 σ 2 0 … 0 σ n − 1 σ n ) ( c 1 c 2 . . . c n ) = ( c 1 σ 1 c 2 σ 2 . . . c n σ n ) = δ L \\large \\colorblue得: Σ ′ (z^L )∇_a C = \\beginpmatrix σ_1\\\\ &σ_2 & & \\text0\\\\ &&…\\\\ & \\text0 &&σ_n-1\\\\ &&&& σ_n \\endpmatrix \\beginpmatrix c1\\\\ c2\\\\...\\\\cn \\endpmatrix = \\beginpmatrix c1σ1\\\\ c2σ2\\\\...\\\\cnσn \\endpmatrix = δ^L 得:Σ′(zL)aC= σ1σ200σn1σn c1c2...cn = 课程一(Neural Networks and Deep Learning)总结:Logistic Regression

价值连城 神经网络- 吴恩达Andrew Ng Coursera Neural Networks and Deep Learning

《neural network and deep learning》题解——ch02 反向传播

机器学习001 deeplearning.ai 深度学习课程 Neural Networks and Deep Learning 第一周总结

《neural network and deep learning》题解——ch03 如何选择神经网络的超参数

论文翻译:BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or ?1