矩阵微分
Posted faranten
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了矩阵微分相关的知识,希望对你有一定的参考价值。
本文地址:https://www.cnblogs.com/faranten/p/16028217.html
转载请注明作者与出处
1 分母布局与分子布局
矩阵微分可以认为是多元微分的一种特殊形式,其中最基础的概念是分母布局(denominator layout)和分子布局(nominator layout)的概念,它决定了矩阵微分的结构。对于\\(\\mathbf x\\in\\mathbb R^M\\)与\\(y=f(\\mathbf x)\\in\\mathbb R\\)而言:
而对于\\(x\\in\\mathbb R\\)与\\(\\mathbf y=f(x)\\in\\mathbb R^N\\)而言:
对于\\(\\mathbf x\\in\\mathbb R^M\\)与\\(\\mathbf y=f(\\mathbf x)\\in\\mathbb R^N\\)而言,其分母布局的一阶导数:
称为雅可比矩阵(Jacobian Matrix)的转置(因为雅可比矩阵采用分子布局)。对于\\(\\mathbf x\\in\\mathbb R^M\\)与\\(y=f(\\mathbf x)\\in\\mathbb R\\)而言,其分母布局的二阶导数:
称为函数\\(f(\\mathbf x)\\)的Hessian矩阵,也写作\\(\\nabla^2f(\\mathbf x)\\),其中第\\(m,n\\)个元素为\\(\\frac\\partial^2y\\partial x_mx_n\\)。
2 导数法则
2.1 加减法则
对于\\(\\mathbf x\\in\\mathbb R^M\\),\\(\\mathbf y=f(\\mathbf x)\\in\\mathbb R^N\\),\\(\\mathbf z=g(\\mathbf x)\\in\\mathbb R^N\\),则
2.2 乘法法则
对于\\(\\mathbf x\\in\\mathbb R^M\\),\\(\\mathbf y=f(\\mathbf x)\\in\\mathbb R^N\\),\\(\\mathbf z=g(\\mathbf x)\\in\\mathbb R^N\\),则
对于\\(\\mathbf x\\in\\mathbb R^M\\),\\(\\mathbf y=f(\\mathbf x)\\in\\mathbb R^S\\),\\(\\mathbf z=g(\\mathbf x)\\in\\mathbb R^T\\)且\\(\\mathbf A\\in\\mathbb R^S\\times T\\),则
对于\\(\\mathbf x\\in\\mathbb R^M\\),\\(y=f(\\mathbf x)\\in\\mathbb R\\),\\(\\mathbf z=g(\\mathbf x)\\in\\mathbb R^N\\),则
2.3 链式法则
在形式上和普通的链式法则一样。
3 完整定义
![](https://image.cha138.com/20220320/6a276d84e84143f3aee42fda0c6fc18b.jpg)
可以看出分母布局和分子布局的区别仅在于转置。
3.1 图1:\\(\\partial\\text向量/\\partial\\text向量\\)
![](https://image.cha138.com/20220320/aae0c6067d584393b682746daaa93bc5.jpg)
3.2 图2:\\(\\partial\\text标量/\\partial\\text向量\\)
![](https://image.cha138.com/20220320/de3023dc09a7428c9522d98dab742dca.jpg)
![](https://image.cha138.com/20220320/4c5cebda99754efbbad4d37fe697cba6.jpg)
3.3 图3:\\(\\partial\\text向量/\\partial\\text标量\\)
![](https://image.cha138.com/20220320/2cba260c4f944ee8896bece11318ebc5.jpg)
3.4 图4:\\(\\partial\\text标量/\\partial\\text矩阵\\)
![](https://image.cha138.com/20220320/9e9012464ed94c02a511ee7a5496d3a5.jpg)
![](https://image.cha138.com/20220320/7f3526803b474141b5de94ed61ab8ee4.jpg)
![](https://image.cha138.com/20220320/ac4cff2e019441fbaaa5fd7a27ca89ec.jpg)
3.5 图5:\\(\\partial\\text矩阵/\\partial\\text标量\\)
![](https://image.cha138.com/20220320/703accb3abc04f86abd1ac31c51f4dda.jpg)
3.6 图6:\\(\\partial\\text标量/\\partial\\text标量\\)链式法则结合矩阵
![](https://image.cha138.com/20220320/2ec5041ad59a439a9fae0b87c4250988.jpg)
3.7 图7:\\(\\partial\\text标量/\\partial\\text标量\\)链式法则结合矩阵
![](https://image.cha138.com/20220320/fb9275064d434a67996d1e5047a34e6a.jpg)
3.8 图8:\\(d(\\text矩阵)\\)
![](https://image.cha138.com/20220320/e38c5ed96a454e008423db453901d42b.jpg)
3.9 图9:\\(d(\\text矩阵)\\)
![](https://image.cha138.com/20220320/a0a3840ea53242b382372ad35587888e.jpg)
3.10 图10:\\(d/d\\)形式
![](https://image.cha138.com/20220320/6bd54921e3244b178fa51e877fc5822d.jpg)
4 参考资料
- 邱锡鹏,《神经网络与深度学习》,网络发布版本,2021
- Matrix calculus - Wikipedia
以上是关于矩阵微分的主要内容,如果未能解决你的问题,请参考以下文章
scipy.integrate.odeint可以计算矩阵的微分方程吗
机器学习|数学基础Mathematics for Machine Learning系列之矩阵理论(17):函数矩阵的微分和积分