深度学习7-矩阵乘法运算的反向传播求梯度

Posted 2022-09-05 清风莫追

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习7-矩阵乘法运算的反向传播求梯度相关的知识，希望对你有一定的参考价值。

🚩 前言

本节以较简单的例子来理解矩阵乘法下的反向传播过程。为了稍微形象一些，这里同样会用到计算图来进行描述。

矩阵乘法下的反向传播，其实和标量计算下的反向传播区别不大，只是我们的研究对象从标量变成了矩阵。我们需要解决的就是矩阵乘法运算下求梯度的问题，而两个矩阵的乘法又可以分解为许多标量的运算。

在矩阵乘法的情况下，设有一个特征矩阵为 $X$ ，一个权值矩阵为 $W$ ，输出： $Y = X W$ 。
如果我们要得到 $Y$ 关于 $W$ 的梯度，则可以使用公式： $^\\top dY$
同样的，如果求 $Y$ 关于 $X$ 的梯度，则可以使用公式： $dX=dYW^\\top$

那么，为什么上面的公式确实可以求出我们所需要的梯度呢？

我们不妨看看两个简单矩阵相乘的过程，并将目光聚焦到求关于 $W$ 的梯度

求关于 $W$ 的梯度，则我们得到的 $d W$ 的形状应当是与 $W$ 相同的，即每个元素都有一个对应的梯度。我们看和 $W_11$ 有关的部分：

$y_11=X_11W_11+X_12W_21$
$y_21=X_21W_11+X_22W_21$
$y_31=X_31W_11+X_32W_21$

不难发现， $W_11$ 的系数有三个，那么 $W_11$ 的梯度就是这三个系数的和： $X_11+X_21+X_31$ 。

对应的系数作为梯度很好理解，可为什么是和呢？而不是平均数？又或者其它的？
我现在也没有很明白，求得的梯度为什么是它所有系数的和值，主要是对这个梯度值所代表的意义有些困惑。不过平均数其实没有什么意义，不过是给所有求得的梯度等比缩小了而已。

相应的， $W$ 第一行的元素，其梯度都是 $X$ 第一列的和；第二行的元素，其梯度都是 $X$ 第二列的和。
于是可以发现，通过公式 $^\\top dY$ ，如果 $d Y$ 的元素值都为1，我们就恰巧能得到上面的结果。

在实际的模型中，矩阵乘法的运算只是作为很小的一个部分， $d Y$ 的值接受自下一层，而非简单的全为 $1$ ，因此不必担心出现每一行的权值只能同步更新的问题

前面我们是从表达式的系数得出的规律，接下来再从计算图来看一下反向传播求梯度的过程。

求W11有关的部分计算图——正向推理

误差反向传播

这里我们得到： $dW_11=X_11dy_11+X_21dy_21+X_31dy_31$

这里只画出了举例子所需要的小部分计算图，将一个矩阵乘法运算完整地用计算图呈现出来，会显得比较错综复杂，也比较麻烦。但使用部分计算图来以点带面、帮助理解还是非常不错的。

感谢阅读

以上是关于深度学习7-矩阵乘法运算的反向传播求梯度的主要内容，如果未能解决你的问题，请参考以下文章