《neural network and deep learning》题解——ch02 反向传播
Posted 小爷毛毛(卓寿杰)
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《neural network and deep learning》题解——ch02 反向传播相关的知识,希望对你有一定的参考价值。
重磅推荐专栏: 《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!
http://blog.csdn.net/u011239443/article/details/74859614
2.4 反向传播的四个基本方程
( B P 1 ) : δ L = ∇ a C ⊙ σ ′ ( z L ) \\large \\colorblue (BP1):δ ^L = ∇ _a C ⊙ σ ′ (z ^L ) (BP1):δL=∇aC⊙σ′(zL)
( B P 2 ) : δ l = ( ( w l + 1 ) T δ l + 1 ) ⊙ σ ′ ( z l ) \\large \\colorblue (BP2):δ ^l = ((w ^l+1 ) ^T δ ^l+1 ) ⊙ σ ′ (z^ l ) (BP2):δl=((wl+1)Tδl+1)⊙σ′(zl)
( B P 3 ) : ∂ C ∂ b l j = δ j l \\large \\colorblue (BP3): \\frac∂C ∂b_lj = δ_j^l (BP3):∂blj∂C=δjl
( B P 4 ) : ∂ C ∂ w j k l = a k l − 1 δ j l \\large \\colorblue (BP4): \\frac∂C ∂w^l_jk = a_k^l-1δ_j^l (BP4):∂wjkl∂C=akl−1δjl
问题一:
另一种反向传播方程的表示方式: 我已经给出了使用 Hadamard 乘积的反向传播的公式(尤其是 (BP1) 和 (BP2))。如果你对这种特殊的乘积不熟悉,可能会有一些困惑。下面还有一种表示方式,那就是基于传统的矩阵乘法,某些读者可能会觉得很有启发。(1)证明(BP1) 可以写成:
δ L = Σ ′ ( z L ) ∇ a C \\large \\colorblue δ^L = Σ ′ (z^L )∇_a C δL=Σ′(zL)∇aC
其中$ Σ ′ (z^L ) 是一个方阵 , 其对⻆线的元素是 是一个方阵,其对⻆线的元素是 是一个方阵,其对⻆线的元素是σ ′ (z_j^L )$,其他的元素均是 0。注意,这个矩阵通过一般的矩阵乘法作用在 ∇ a C ∇_a C ∇aC 上。
设:
∇
a
C
=
(
c
1
c
2
.
.
.
c
n
)
\\large \\colorblue 设 :∇ _a C = \\beginpmatrix c1\\\\ c2\\\\...\\\\cn \\endpmatrix
设:∇aC=
c1c2...cn
σ
′
(
z
L
)
=
(
σ
1
σ
2
.
.
.
σ
n
)
\\large \\colorblueσ ′ (z ^L ) = \\beginpmatrix σ1\\\\ σ2\\\\...\\\\σn \\endpmatrix
σ′(zL)=
σ1σ2...σn
$\\large \\colorblue则: (BP1):δ ^L = ∇ _a C ⊙ σ ′ (z ^L ) = \\beginpmatrix c1σ1\\ c2σ2\\…\\cnσn \\endpmatrix $
$\\large \\colorblue 由: Σ ′ (z^L ) =
\\beginpmatrix
σ_1\\
&σ_2 & & \\text0\\
&&…\\
& \\text0 &&σ_n-1\\
&&&& σ_n
\\endpmatrix
$
得:
Σ
′
(
z
L
)
∇
a
C
=
(
σ
1
σ
2
0
…
0
σ
n
−
1
σ
n
)
(
c
1
c
2
.
.
.
c
n
)
=
(
c
1
σ
1
c
2
σ
2
.
.
.
c
n
σ
n
)
=
δ
L
\\large \\colorblue得: Σ ′ (z^L )∇_a C = \\beginpmatrix σ_1\\\\ &σ_2 & & \\text0\\\\ &&…\\\\ & \\text0 &&σ_n-1\\\\ &&&& σ_n \\endpmatrix \\beginpmatrix c1\\\\ c2\\\\...\\\\cn \\endpmatrix = \\beginpmatrix c1σ1\\\\ c2σ2\\\\...\\\\cnσn \\endpmatrix = δ^L
得:Σ′(zL)∇aC=
σ1σ20…0σn−1σn
c1c2...cn
=
课程一(Neural Networks and Deep Learning)总结:Logistic Regression
价值连城 神经网络- 吴恩达Andrew Ng Coursera Neural Networks and Deep Learning
《neural network and deep learning》题解——ch02 反向传播
机器学习001 deeplearning.ai 深度学习课程 Neural Networks and Deep Learning 第一周总结
《neural network and deep learning》题解——ch03 如何选择神经网络的超参数
论文翻译:BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or ?1