什么是微分?什么是导数?如何利用微分-导数方程求导数?
Posted 卓晴
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是微分?什么是导数?如何利用微分-导数方程求导数?相关的知识,希望对你有一定的参考价值。
简 介: 记 ∇ X f \\nabla _X f ∇Xf 是矩阵函数的导数,那么可以利用微分-导数方程 d y = T r ( ∇ X f T ⋅ d X ) dy = Tr\\left( \\nabla _X f^T \\cdot dX \\right) dy=Tr(∇XfT⋅dX) 计算 ∇ X f \\nabla _X f ∇Xf 。
关键词
: 导数,微分,向量,矩阵
作为机器学习的基础,微积分+线性代数是用于描述网络运行和更新的重要工具。本文整理自网络 Andersen Ang Matrix derivative on scalar function of matrix variable 课件。
§01 标量函数求导
1.1 准备工作
本文中所有函数
f
f
f 都是指以下形式:
f
:
Ω
→
R
f:\\Omega \\to \\bfR
f:Ω→R
也就是:
- f f f 将定义域 Ω \\Omega Ω 中的元素映射到实轴上 R \\bfR R 的元素;
- 函数 f f f 的输出为标量;
本文中关于函数 f f f 的导数是针对矩阵变量。
- 关于向量变量求导是对矩阵变量求导的特例。
关于矩阵求导具有很多方面应用,比如给出计算导数的统一系统方法。
下面首先考虑简单的情况:函数 f f f 关于标量和向量求导。
1.2 单个变量函数的微分和导数
令:
y
=
f
(
x
)
y = f\\left( x \\right)
y=f(x) ,
y
y
y 关于函数变量
x
x
x 的导数定义为:
d
y
d
x
=
d
f
(
x
)
d
x
=
f
′
(
x
)
dy \\over dx = df\\left( x \\right) \\over dx = f'\\left( x \\right)
dxdy=dxdf(x)=f′(x)
关于
y
y
y 的微分为:
d
y
dy
dy 。
微分与导数之间的关系:
d
y
=
f
′
(
x
)
d
x
dy = f'\\left( x \\right)dx
dy=f′(x)dx
扼要重述:
- 微分: 变量的无穷小的变化;
- 导数: 函数 f f f 关于变量的变化率;
1.3 向量函数的微分和导数
1.3.1 三个变量
令: y = f ( x 1 , x 2 , x 3 ) y = f\\left( x_1 ,x_2 ,x_3 \\right) y=f(x1,x2,x3) , y y y 的全微分为: d y = ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 + ∂ f ∂ x 3 d x 3 dy = \\partial f \\over \\partial x_1 dx_1 + \\partial f \\over \\partial x_2 dx_2 + \\partial f \\over \\partial x_3 dx_3 dy=∂x1∂fdx1+∂x2∂fdx2+∂x3∂fdx3
- 含义: 函数 f f f 全部变化(这里记作 d y dy dy )是所有变量引起变化之和;
- 变化量: 对于输出为标量的函数,它的变化量也是标量;
- 变化量之和: 是将所有变量的变化量( d x i dx_i dxi )乘以函数 f f f 关于改变量的导数( ∂ f ∂ x i \\partial f \\over \\partial x_i ∂xi∂f )。
令:
d
x
=
[
d
x
1
,
d
x
2
,
d
x
3
]
T
dx = \\left[ dx_1 ,dx_2 ,dx_3 \\right]^T
dx