2-4 梯度下降法的收敛证明

Posted windmissing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2-4 梯度下降法的收敛证明相关的知识,希望对你有一定的参考价值。

证明:经过有限次迭代,可以得到一个将线性可分的训练数据集完全正确划分的分离超平面及感知机模型

当训练数据集线性不可分时,算法不收敛

假设前提:

  1. 所有训练数据点都线性可分的
  2. 初值 ( w 0 , b 0 ) = 0 ⃗ (w_0, b_0) = \\vec0 (w0,b0)=0

证明前的一些定义

(1)令
w ^ = ( w T , b ) T       向 量 一 般 默 认 为 列 向 量 x ^ = ( x , 1 ) \\hat w = (w^T, b)^T \\ \\ \\ \\ \\ 向量一般默认为列向量 \\\\ \\hat x = (x, 1) w^=(wT,b)T     x^=(x,1)

w ^ ⋅ x ^ = w ⋅ x + b \\hat w \\cdot \\hat x = w \\cdot x + b w^x^=wx+b
(2)
所有训练数据点都线性可分
⇒ ∃ \\Rightarrow \\exists 一个超平面,使得所有训练数据集都被正确划分
令这个超平面为
w ^ o p t ⋅ x ^ = 0 且 ∣ ∣ w ^ o p t ∣ ∣ = 1 (15) \\hat w_opt \\cdot \\hat x = 0 且 ||\\hat w_opt|| = 1 \\tag 15 w^optx^=0w^opt=1(15)
(3)令
γ = m i n i y i ( w ^ o p t ⋅ x ^ i ) (1) \\gamma = min_i\\y_i(\\hat w_opt \\cdot \\hat x_i)\\ \\tag 1 γ=miniyi(w^optx^i)(1)
(4)令 w ^ k \\hat w_k w^k 为 更 新 了 k 次 之 后 的 为更新了k次之后的 k w ^ \\hat w w^
(5)令
R = m a x 1 ≤ i ≤ n ∣ ∣ x ^ i ∣ ∣ (10) R = max_1 \\le i \\le n||\\hat x_i|| \\tag 10 R=max1inx^i(10)

证明过程

超平面 w ^ o p t ⋅ x ^ = 0 \\hat w_opt \\cdot \\hat x = 0 w^optx^=0将所有数据都完全正确的分开
⇒ ∀ ( x ^ i , y i ) \\Rightarrow \\forall (\\hat x_i, y_i) (x^i,yi),有 y i y_i yi 与 与 w ^ o p t ⋅ x ^ i \\hat w_opt \\cdot \\hat x_i w^optx^i符号相同,且两者都不为0
⇒ ∀ ( x ^ i , y i ) \\Rightarrow \\forall (\\hat x_i, y_i) (x^i,yi) , 有 ,有 y i ( w ^ o p t ⋅ x ^ i ) > 0 y_i(\\hat w_opt \\cdot \\hat x_i)>0 yi(w^optx^i)>0
以上结论结合公式(1)得:
y i ( w ^ o p t ⋅ x ^ i ) ≥ γ > 0 (2) y_i(\\hat w_opt \\cdot \\hat x_i) \\ge \\gamma \\gt 0 \\tag 2 yi(w^optx^i)γ>0(2)


假设算法已经更新了k次,则至少有一个样本点在超平面 w ^ k − 1 ⋅ x ^ = 0 \\hat w_k-1 \\cdot \\hat x = 0 w^k1x^=0上分类错误
假设 ( x i , y i ) (x_i, y_i) (xi,yi)就是这个分类错误的点,则
y i ( w ^ k − 1 ⋅ x ^ i ) < 0 (9) y_i(\\hat w_k-1 \\cdot \\hat x_i) < 0 \\tag 9 yi(w^k1x^i)<0(9)
且:
w k = w k − 1 + η y i x i b k = b k − 1 + η y i

以上是关于2-4 梯度下降法的收敛证明的主要内容,如果未能解决你的问题,请参考以下文章

最速梯度下降

为啥随机梯度下降方法能够收敛?

求解方法之梯度下降法

梯度下降法和牛顿法的总结与比较

牛顿法与拟牛顿法的区别与联系

[机器学习入门篇]-梯度下降法