2-1 感知机原始形式 学习策略的推导

Posted windmissing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2-1 感知机原始形式 学习策略的推导相关的知识,希望对你有一定的参考价值。

策略是指按照什么样的准则学习或者选择最优的模型。
感知机是判别模型,它通过学习得到一个超平面,这个超平面将样本分为正负两类。
使用的策略为:使误分类的点到超平面的距离之和最小

令M为误分类的点的集合,则损失函数为:
L ( w , b ) = ∑ x i ∈ M d i s ( x i ) (1) L(w, b) = \\sum_x_i \\in Mdis(x_i) \\tag 1 L(w,b)=xiMdis(xi)(1)

x 0 x_0 x0到超平面 y = w ⋅ x + b y = w \\cdot x + b y=wx+b的距离为:
d i s ( x 0 ) = ∣ w ⋅ x 0 + b ∣ ∣ ∣ w ∣ ∣ (2) dis(x_0) = \\frac |w \\cdot x_0 + b|||w|| \\tag 2 dis(x0)=wwx0+b(2)
= ∣ y 0 ( w ⋅ x 0 + b ) ∣ ∣ ∣ w ∣ ∣ (3) = \\frac |y_0 (w\\cdot x_0 + b)|||w|| \\tag 3 =wy0(wx0+b)(3)
= − y 0 ( w ⋅ x 0 + b ) ∣ ∣ w ∣ ∣ (4) = \\frac - y_0 (w\\cdot x_0 + b)||w|| \\tag 4 =wy0(wx0+b)(4)
公式说明:

  1. 公式(1):点到超平面的距离公式, ∣ ∣ w ∣ ∣ ||w|| w w w w L 2 L_2 L2范数
  2. 公式(2):y = -1或1
  3. 公式(3):由感知机模型的定义可知,如果 x 0 x_0 x0是误分类的点,即 x 0 ∈ M x_0 \\in M x0M, 则 w ⋅ x 0 + b w\\cdot x_0 + b wx0+b y 0 y_0 y0符号相反,即 y 0 ( w ⋅ x 0 + b ) < 0 y_0 (w\\cdot x_0 + b) < 0 y0(wx0+b)<0

结合公式(1)和公式(4)得:
L ( w , b ) = ∑ x i ∈ M − y i ( w ⋅ x i + b ) ∣ ∣ w ∣ ∣ (5) L(w, b) = \\sum_x_i \\in M\\frac - y_i (w\\cdot x_i + b)||w|| \\tag 5 L(w,b)=xiMwyi(wxi+b)(5)

不考虑公式(5)中的 ∣ ∣ w ∣ ∣ ||w|| w,得到最终的损失函数公式如下:
L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) (6) L(w, b) = - \\sum_x_i \\in My_i (w \\cdot x_i + b) \\tag 6 L(w,b)=xiMyi(wxi+b)(6)

为什么公式(5)不考虑分母 ∣ ∣ w ∣ ∣ ||w|| w?

感知机的算法过程需要对目标函数求导。
公式(5)的求导结果为:
∇ w L ( w , b ) = − 1 ∣ ∣ w ∣ ∣ ∑ x i ∈ M y i x i ∇ b L ( w , b ) = − 1 ∣ ∣ w ∣ ∣ ∑ x i ∈ M y i (7) \\begincases \\nabla_wL(w,b) = - \\frac1||w||\\sum_x_i \\in My_ix_i \\\\ \\nabla_bL(w,b) = - \\frac1||w||\\sum_x_i \\in My_i \\endcases \\tag 7 wL(w,b)=w1xiMyixibL(w,b)=w1xiMyi(7)
||w||为w的长度,大小始终非负。
从公式(7)可以看出,||w||的存在,不影响梯度的方法,仅影响梯度下降的步长。
对于感知机梯度下降法的迭代过程,它只要求每次移动的方向是正确的,并不care移动的步长。
所以||w||是否存在不影响感知机算法的最终结果。为什么简化计算,就在目标函数中去掉了分母||w||。
每次迭代不care步长,正是在cs229中被置疑的地方。

以上是关于2-1 感知机原始形式 学习策略的推导的主要内容,如果未能解决你的问题,请参考以下文章

统计学习方法(第2章)感知机 学习笔记

感知机(Perceptron)

2.感知机

李航《统计学习方法》CH02

2-7 感知机对偶形式 梯度下降法的推导过程

统计学习方法 二 感知机