牛顿法,拟牛顿法,共轭梯度法各自的优缺点是啥?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了牛顿法,拟牛顿法,共轭梯度法各自的优缺点是啥?相关的知识,希望对你有一定的参考价值。
各自的算法是怎样的?
参考技术A 牛顿法需要函数的一阶、二阶导数信息,也就是说涉及到Hesse矩阵,包含矩阵求逆运算,虽然收敛速度快但是运算量大。拟牛顿法采用了一定的方法来构造与Hesse矩阵相似的正定矩阵,而这个构造方法计算量比牛顿法要小;共轭梯度法的基本思想是把共轭性与最速下降方法相结合,利用已知点处的梯度构造一组共轭方向,并沿这组方向进行搜素,求出目标函数的极小点。根据共轭方向基本性质,这种方法运算量不太大收敛速度也不慢。牛顿法梯度下降法与拟牛顿法
牛顿法、梯度下降法与拟牛顿法
0 引言
机器学习中在求解非线性优化问题时,常用的是梯度下降法和拟牛顿法,梯度下降法和拟牛顿法都是牛顿法的一种简化
牛顿法是在一个初始极小值点做二阶泰勒展开,然后对二阶泰勒展开式求极值点,通过迭代的方式逼近原函数极值点
在牛顿法迭代公式中,需要求二阶导数,而梯度下降法将二阶导数简化为一个固定正数方便求解
拟牛顿法也是在求解过程中做了一些简化,不用直接求二阶导数矩阵和它的逆
1 关于泰勒展开式
1.1 原理
如果我们有一个复杂函数
f
(
x
)
f(x)
f(x), 对这个复杂函数我们想使用 n 次多项式(多项式具有好计算,易求导,且好积分等一系列的优良性质)去拟合这个函数,这时就可以对
f
(
x
)
f(x)
f(x)进行泰勒展开,求某一点
x
0
x_0
x0附近的 n 次多项式:
注意:
n 次多项式只是在
x
0
x_0
x0 较小的邻域内能较好拟合
f
(
x
)
f(x)
f(x),也就是说,泰勒展开式其实是一种局部近似的方法,只近似
x
=
x
0
x=x_0
x=x0那一点的函数性
1.2 例子
现在要求 f ( x ) = c o s ( x ) f(x)=cos(x) f(x)=cos(x) 在 x 0 = 0 x_0=0 x0=0 处的二阶泰勒展开,因为我们去掉了高阶项,所以只是近似
直接套用公式
f
(
x
0
)
=
f
(
0
)
=
c
o
s
(
0
)
=
1
f(x_0)=f(0)=cos(0)=1
f(x0)=f(0)=cos(0)=1
f
′
(
x
0
)
=
f
′
(
0
)
=
−
s
i
n
(
0
)
=
0
f'(x_0)=f'(0)=-sin(0)=0
f′(x0)=f′(0)=−sin(0)=0
f
′
′
(
x
0
)
=
f
′
′
(
0
)
=
−
c
o
s
(
0
)
=
−
1
f''(x_0)=f''(0)=-cos(0)=-1
f′′(x0)=f′′(0)=−cos(0)=−1
所以展开后的公式为
f
(
x
)
≈
f
(
x
0
)
+
f
′
(
x
0
)
∗
x
+
f
′
′
(
x
0
)
∗
x
2
/
2
=
1
−
0.5
∗
x
2
f(x)≈f(x_0)+f'(x_0)*x+f''(x_0)*x^2/2=1-0.5*x^2
f(x)≈f(x0)+f′(x0)∗x+f′′(x0)∗x2/2=1−0.5∗x2
从下方运行程序可以看出,离展开点越近的点,拟合程度越高,越远的点,越离谱
2 牛顿法
2.1 x 为一维
现在假设我们有目标函数
f
(
x
)
f(x)
f(x),我们希望求此函数的极小值,牛顿法的基本思想是:随机找到一个点设为当前极值点
x
k
x_k
xk,在这个点对
f
(
x
)
f(x)
f(x) 做二次泰勒展开,进而找到极小点的下一个估计值。在
x
k
x_k
xk 附近的二阶泰勒展开为:
现在想求
φ
(
x
)
\\varphi(x)
φ(x) 的极值点,由极值的必要条件可知,
φ
(
x
)
\\varphi(x)
φ(x) 应满足导数为 0,即:
φ
′
(
x
)
=
0
\\varphi'(x)=0
φ′(x)=0
即
φ
′
(
x
)
=
f
′
(
x
k
)
+
f
′
′
(
x
k
)
(
x
−
x
k
)
=
0
\\varphi'(x)=f'(x_k)+f''(x_k)(x-x_k)=0
φ′(x)=f′(xk)+f′′(xk)(x−xk)=0
这样就可以求得 x 的值
x
=
x
k
−
f
′
(
x
k
)
f
′
′
(
x
k
)
x=x_k-\\fracf'(x_k)f''(x_k)
x=xk−f′′(xk)f′(xk)
于是给定初始值
x
0
x_0
x0,就可以通过迭代的方式逼近
f
(
x
)
f(x)
f(x)的极值点:
x
k
+
1
=
x
k
−
f
′
(
x
k
)
f
′
′
(
x
k
)
x_k+1=x_k-\\fracf'(x_k)f''(x_k)
xk+1=xk−f′′(xk)f′(xk)
如下图,首先在 x n x_n xn 处泰勒展开,得到 f ( x ) f(x) f(x) 的近似函数 g n ( x ) g_n(x) gn(x) ,求得 g n ( x ) g_n(x) gn(x) 的极值点 x n + 1 x_n+1 xn+1
随后在 x n + 1 x_n+1 xn+1 出泰勒展开,得到 g n + 1 ( x ) g_n+1(x) gn+1(x) 函数,继续求 g n + 1 ( x ) g_n+1(x) gn+1(x) 的极值点
一直迭代最后就会逼近
f
(
x
)
f(x)
f(x) 的极值点
2.2 x 为多维
上面讨论的是参数 x 为一维的情况,当 x 有多维时,二阶泰勒展开式可以做推广,此时: 以上是关于牛顿法,拟牛顿法,共轭梯度法各自的优缺点是啥?的主要内容,如果未能解决你的问题,请参考以下文章
φ
(
x
)
=
f
(
x
k
)
+
∇
f
(
x
k
)
∗
(
x
−
x
k
)
+
1
2
∗
(
x
−
x
k
)
T
∗
∇
2
f
(
x
k
)
∗
(
x
−
x
k
)
\\varphi(x)=f(x_k)+\\nablaf(x_k)*(x-x_k)+ \\frac12*(x-x_k)^T*\\nabla^2f(x_k)*(x-x_k)
φ(x)