机器学习里的数学:矩阵求导Ⅱ

Posted AI土木小站

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习里的数学:矩阵求导Ⅱ相关的知识,希望对你有一定的参考价值。


今天继续聊矩阵求导。

上次我们谈到了向量对向量求导和向量对矩阵求导。在此基础上,我们来讨论一下矩阵对矩阵求导和链式法则。



矩阵对矩阵求导




首先给出如下的矩阵运算,其中X为N行D列的矩阵,W为D行C列的矩阵。

机器学习里的数学:矩阵求导Ⅱ

其实,我们可以把这个矩阵运算看成是一个批量计算的感知机模型。N则是batch size,也就是一次计算N个输入。D则是X的特征数,然后经过W的加权后,获得一个C维的输出。

根据之前的原则,还是“标量化”矩阵运算。

机器学习里的数学:矩阵求导Ⅱ

观察上式,容易得出,只有当矩阵Y的第1个下标和矩阵X的第1个下标一致是,导数不为0,所以有

机器学习里的数学:矩阵求导Ⅱ

如果只看矩阵Y和X的第i行,根据前面介绍的向量对向量求导的法则,可以得到

机器学习里的数学:矩阵求导Ⅱ

这个式子表明,同一批输入对输出的导数均为权重矩阵W。在神经网络中称为权值共享。



链式法则




所谓链式法则,即从输入到输出的映射中存在一系列中间变量,输入对输出的导数可以转化为对中间变量求导,环环相扣,最终得到对输出的导数。


讨论一个最简单的例子,列向量y和列向量x存在如下关系

机器学习里的数学:矩阵求导Ⅱ

列向量y对列向量x的导数为

机器学习里的数学:矩阵求导Ⅱ

下面从链式法则的角度重新求导,先定义一个中间变量向量m,并且有

机器学习里的数学:矩阵求导Ⅱ

然后画出向量y到向量x的路径图

机器学习里的数学:矩阵求导Ⅱ

从向量y到向量x只有一条路径,没有分支,经过一个中间变量向量m,因此有

机器学习里的数学:矩阵求导Ⅱ

考虑向量y中第i个元素对向量x中第j个元素的导数

机器学习里的数学:矩阵求导Ⅱ

和直接求导的结果一样。




总结




矩阵求导是理解反向传播(BP)算法的基础。矩阵求导的一般原则是显式地表达变量之间的关系,然后根据求导法则计算即可。在面对复杂运算时,可以通过引入中间变量的方式,厘清输入到输出的路径,利用链式法则进行求导计算。


END

请长按下方二维码关注我们
记得把我们设置为星标

以上是关于机器学习里的数学:矩阵求导Ⅱ的主要内容,如果未能解决你的问题,请参考以下文章

机器学习数学基础之矩阵理论

[转载]机器学习中常用的矩阵求导公式

机器学习中的矩阵向量求导 矩阵向量求导之微分法

机器学习中的线性代数之矩阵求导

机器学习中的线性代数之矩阵求导

机器学习中的矩阵求导Jacobian矩阵和Hessian矩阵