[转载]机器学习中常用的矩阵求导公式

Posted 2020-06-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[转载]机器学习中常用的矩阵求导公式相关的知识，希望对你有一定的参考价值。

原文地址：机器学习中常用的矩阵求导公式作者：MachineLearner

矩阵求导好像读书的时候都没学过，因为讲矩阵的课程上不讲求导，讲求导的课又不提矩阵。如果从事机器学习方面的工作，那就一定会遇到矩阵求导的东西。维基百科上：http://en.wikipedia.org/wiki/Matrix_calculus ，根据Y与X的不同类型（实值，向量，矩阵），给出了具体的求导公式，以及一堆相关的公式，查起来都费劲。

其实在实际的机器学习工作中，最常用到的就是实值函数y对向量X的求导，定义如下（其实就是y对向量X的每一个元素求导）：

实值函数对矩阵X求导也类似：

因为机器学习（这里指的是有监督的机器学习）的一般套路是给定输入X，选择一个模型f作为决策函数，由f(X)预测出Y‘。而得到f的参数θ（往往是向量），需要定义一个loss函数（一般都是实值函数），描述当前f预测值Y‘与实际的Y值的接近程度。模型学习的过程就是求使得 loss函数 L(f(X),Y)最小的参数θ。这是一个最优化问题，实际应用中都是用和梯度相关的最优化方法，如梯度下降，共轭梯度，拟牛顿法等等。

其实只要掌握上面这个公式，就能搞定很多问题了。

为了方便推导，下面列出一些机器学习中常用的求导公式，其中andrew ng那一套用矩阵迹的方法还是挺不错的，矩阵的迹也是实值的，而一个实数的迹等于其本身，实际工作中可以将loss函数转化成迹，然后在求导，可能会简化推导的步骤。

以上只是一些最基本的公式，能够解决一些问题，主要是减少大家对矩阵求导的恐惧感。关于矩阵方面的更多信息可以参考上面的wiki链接以及《Matrix cookbook》（感谢 @王树森 CS 推荐）。

以上是关于[转载]机器学习中常用的矩阵求导公式的主要内容，如果未能解决你的问题，请参考以下文章

机器学习中的线性代数之矩阵求导

王树森说 -- 聊聊不一样的"计数排序"

常用矩阵导数公式

Homework #0 SVD相关&常用矩阵求导公式

机器学习算法推导过程中的数据基础知识