机器学习里的数学：矩阵求导Ⅱ

Posted 2021-04-27 AI土木小站

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习里的数学：矩阵求导Ⅱ相关的知识，希望对你有一定的参考价值。

今天继续聊矩阵求导。

上次我们谈到了向量对向量求导和向量对矩阵求导。在此基础上，我们来讨论一下矩阵对矩阵求导和链式法则。

矩阵对矩阵求导

首先给出如下的矩阵运算，其中X为N行D列的矩阵，W为D行C列的矩阵。

机器学习里的数学：矩阵求导Ⅱ

其实，我们可以把这个矩阵运算看成是一个批量计算的感知机模型。N则是batch size，也就是一次计算N个输入。D则是X的特征数，然后经过W的加权后，获得一个C维的输出。

根据之前的原则，还是“标量化”矩阵运算。

机器学习里的数学：矩阵求导Ⅱ

观察上式，容易得出，只有当矩阵Y的第1个下标和矩阵X的第1个下标一致是，导数不为0，所以有

机器学习里的数学：矩阵求导Ⅱ

如果只看矩阵Y和X的第i行，根据前面介绍的向量对向量求导的法则，可以得到

机器学习里的数学：矩阵求导Ⅱ

这个式子表明，同一批输入对输出的导数均为权重矩阵W。在神经网络中称为权值共享。

链式法则

所谓链式法则，即从输入到输出的映射中存在一系列中间变量，输入对输出的导数可以转化为对中间变量求导，环环相扣，最终得到对输出的导数。

讨论一个最简单的例子，列向量y和列向量x存在如下关系

机器学习里的数学：矩阵求导Ⅱ

列向量y对列向量x的导数为

机器学习里的数学：矩阵求导Ⅱ

下面从链式法则的角度重新求导，先定义一个中间变量向量m，并且有

机器学习里的数学：矩阵求导Ⅱ

然后画出向量y到向量x的路径图

机器学习里的数学：矩阵求导Ⅱ

从向量y到向量x只有一条路径，没有分支，经过一个中间变量向量m，因此有

机器学习里的数学：矩阵求导Ⅱ

考虑向量y中第i个元素对向量x中第j个元素的导数

机器学习里的数学：矩阵求导Ⅱ

和直接求导的结果一样。

总结

矩阵求导是理解反向传播（BP）算法的基础。矩阵求导的一般原则是显式地表达变量之间的关系，然后根据求导法则计算即可。在面对复杂运算时，可以通过引入中间变量的方式，厘清输入到输出的路径，利用链式法则进行求导计算。

END

请长按下方二维码关注我们

记得把我们设置为星标

以上是关于机器学习里的数学：矩阵求导Ⅱ的主要内容，如果未能解决你的问题，请参考以下文章