最优化所需基础知识-第八节:次梯度
Posted 我擦我擦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最优化所需基础知识-第八节:次梯度相关的知识,希望对你有一定的参考价值。
文章目录
一:次梯度的定义
次梯度定义:设 f f f为适当凸函数, x x x为定义域 d o m f dom f domf中的一点,若向量 g ∈ R n g\\in R^n g∈Rn,满足
f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f f(y)\\geq f(x)+g^T(y-x),\\quad \\forall y\\in domf f(y)≥f(x)+gT(y−x),∀y∈domf
则称 g g g为函数 f f f在点 x x x的一个次梯度。进一步地,称集合
∂ f ( x ) = g ∣ g ∈ R n , f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f \\partial f(x)=\\g|g\\in R^n,f(y)\\geq f(x)+g^T(y-x),\\quad \\forall y\\in domf\\ ∂f(x)=g∣g∈Rn,f(y)≥f(x)+gT(y−x),∀y∈domf
为 f f f在点 x x x处的次微分
如下图
- g 1 g_1 g1是点 x 1 x_1 x1处的次梯度
-
g
2
g_2
g2、
g
3
g_3
g3是点
x
2
x_2
x2的次梯度
实际上,次梯度实际上借鉴了凸函数判定定理的一阶条件。所以定义次梯度的初衷之一也是希望它具有类似于梯度的一些性质
- 一阶条件:对于定义在凸集上的可微函数 f f f, f f f为凸函数当前仅当 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) ∀ x , y ∈ d o m f f(y)\\geq f(x)+\\nabla f(x)^T(y-x) \\quad \\forall x,y\\in domf f(y)≥f(x)+∇f(x)T(y−x)∀x,y∈domf
另外,从次梯度的定义可直接推出,若 g g g是 f ( x ) f(x) f(x)在 x 0 x_0 x0处的次梯度,则函数
l ( x ) = f ( x 0 ) + g T ( x − x 0 ) l(x)=f(x_0)+g^T(x-x_0) l(x)=f(x0)+gT(x−x0)
为凸函数 f ( x ) f(x) f(x)的一个全局下界。此外,次梯度 g g g可以诱导出上方图 e p i f epif epif在点 ( x , f ( x ) ) (x, f(x)) (x,f(x))处的一个支撑超平面
- 容易验证,对
e
p
i
f
epi f
epif中的任意点
(
y
,
t
)
(y, t)
(y,t),有:
二:次梯度存在性
次梯度存在性:设 f f f为凸函数, d o m f dom f domf为其定义域。如果 x ∈ i n t d o m f x\\in int domf x∈intdomf,则 ∂ f ( x ) \\partial f(x) ∂f(x)是非空的。其中 i n t d o m f int domf intdomf的含义时集合 d o m f dom f domf的所有内点
证明:考虑 f ( x ) f(x) f(x)的上方图 e p i f epi f epif,由于 ( x , f ( x ) ) (x, f(x)) (x,f(x))是 e p i f epi f epif边界上的点,且 e p i f epi f epif为凸集,根据支撑超平面定理,存在 a ∈ R n , b ∈ R a\\in R^n,b\\in R a∈Rn,b∈R使得
也即
a T ( y − x ) ≤ b ( f ( x ) − t ) a^T(y-x)\\leq b(f(x)-t) aT(y−x)≤b(f(x)−t)
令 t → ∞ t\\rightarrow \\infty t→∞,可知上式成立的必要条件 b ≤ 0 b\\leq0 b≤0,同时由于 x x x是内点,因此当取 y = x + ξ a ∈ d o m f y=x+\\xi a\\in dom f y=x+ξa∈domf, ξ > 0 \\xi>0 ξ>0时, b = 0 b=0 b=0不能使得上式成立。于是令 g = − a b g=-\\fracab g=−ba,则对任意 y ∈ d o m f y\\in domf y∈domf,有
g T ( y − x ) = a T ( y − x ) − b ≤ − ( f ( x ) − f ( y ) ) g^T(y-x)=\\fraca^T(y-x)-b\\leq-(f(x)-f(y)) gT(y−x)=−baT(y−x)≤−(f(x)−f(y))
即
f ( y ) ≥ f ( x ) + g T ( y − x ) f(y)\\geq f(x)+g^T(y-x) f(y)≥f(x)+gT(y−x)
这说明 g g g是 f f f在点 x x x处的次梯度
例子:
①: f ( x ) = m a x f 1 ( x ) , f 2 ( x ) f(x)=max\\f_1(x), f_2(x)\\ f(x传输层-第八节1:TCP连接管理理论部分(三次握手与四次挥手)
传输层-第八节1:TCP连接管理理论部分(三次握手与四次挥手)