每层多个节点的反向传播
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了每层多个节点的反向传播相关的知识,希望对你有一定的参考价值。
我读了关于反向传播如何工作的this文章,我理解他们所说的一切。他们说要找到梯度,我们必须将成本函数的偏导数推导到每个权重/偏差。但是,为了解释这一点,他们使用了一个每层有一个节点的网络。对于每层有多个节点的网络,如何进行反向传播?
答案
我没有仔细检查我在这里提出的数学,所以如果有人在这里看到错误,请纠正我!
无论如何,这里的图像是一个非常简单的反向传播的例子。正如您所看到的,我们对损失函数L的梯度感兴趣(在这种情况下,损失函数非常简单,在此示例之外不是很好)关于权重W,以便根据渐变更新权重下降优化器(还有其他更好的优化器,但梯度下降是最容易理解的,所以我建议你阅读它)。我想你理解的关键是方框中的第一个方程式,你可以看到你首先使用链规则,然后总结这给你的所有渐变。
为了进一步理解,我建议你写出所有的前向传播方程,然后计算每层的dL / dW和dL / da的链规则。如果你进一步分解方程并设置a = f(z),z = W * X(为了使链规则更直观;即dL / dW = dL / da * da / dz),也可能更容易* DZ / DW)。还有一些指南,您可以阅读以便进一步了解。
以上是关于每层多个节点的反向传播的主要内容,如果未能解决你的问题,请参考以下文章