2-1 感知机原始形式 学习策略的推导
Posted windmissing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2-1 感知机原始形式 学习策略的推导相关的知识,希望对你有一定的参考价值。
策略是指按照什么样的准则学习或者选择最优的模型。
感知机是判别模型,它通过学习得到一个超平面,这个超平面将样本分为正负两类。
使用的策略为:使误分类的点到超平面的距离之和最小
令M为误分类的点的集合,则损失函数为:
L
(
w
,
b
)
=
∑
x
i
∈
M
d
i
s
(
x
i
)
(1)
L(w, b) = \\sum_x_i \\in Mdis(x_i) \\tag 1
L(w,b)=xi∈M∑dis(xi)(1)
点
x
0
x_0
x0到超平面
y
=
w
⋅
x
+
b
y = w \\cdot x + b
y=w⋅x+b的距离为:
d
i
s
(
x
0
)
=
∣
w
⋅
x
0
+
b
∣
∣
∣
w
∣
∣
(2)
dis(x_0) = \\frac |w \\cdot x_0 + b|||w|| \\tag 2
dis(x0)=∣∣w∣∣∣w⋅x0+b∣(2)
=
∣
y
0
(
w
⋅
x
0
+
b
)
∣
∣
∣
w
∣
∣
(3)
= \\frac |y_0 (w\\cdot x_0 + b)|||w|| \\tag 3
=∣∣w∣∣∣y0(w⋅x0+b)∣(3)
=
−
y
0
(
w
⋅
x
0
+
b
)
∣
∣
w
∣
∣
(4)
= \\frac - y_0 (w\\cdot x_0 + b)||w|| \\tag 4
=∣∣w∣∣−y0(w⋅x0+b)(4)
公式说明:
- 公式(1):点到超平面的距离公式, ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣是 w w w的 L 2 L_2 L2范数
- 公式(2):y = -1或1
- 公式(3):由感知机模型的定义可知,如果 x 0 x_0 x0是误分类的点,即 x 0 ∈ M x_0 \\in M x0∈M, 则 w ⋅ x 0 + b w\\cdot x_0 + b w⋅x0+b与 y 0 y_0 y0符号相反,即 y 0 ( w ⋅ x 0 + b ) < 0 y_0 (w\\cdot x_0 + b) < 0 y0(w⋅x0+b)<0
结合公式(1)和公式(4)得:
L
(
w
,
b
)
=
∑
x
i
∈
M
−
y
i
(
w
⋅
x
i
+
b
)
∣
∣
w
∣
∣
(5)
L(w, b) = \\sum_x_i \\in M\\frac - y_i (w\\cdot x_i + b)||w|| \\tag 5
L(w,b)=xi∈M∑∣∣w∣∣−yi(w⋅xi+b)(5)
不考虑公式(5)中的
∣
∣
w
∣
∣
||w||
∣∣w∣∣,得到最终的损失函数公式如下:
L
(
w
,
b
)
=
−
∑
x
i
∈
M
y
i
(
w
⋅
x
i
+
b
)
(6)
L(w, b) = - \\sum_x_i \\in My_i (w \\cdot x_i + b) \\tag 6
L(w,b)=−xi∈M∑yi(w⋅xi+b)(6)
为什么公式(5)不考虑分母 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣?
感知机的算法过程需要对目标函数求导。
公式(5)的求导结果为:
∇
w
L
(
w
,
b
)
=
−
1
∣
∣
w
∣
∣
∑
x
i
∈
M
y
i
x
i
∇
b
L
(
w
,
b
)
=
−
1
∣
∣
w
∣
∣
∑
x
i
∈
M
y
i
(7)
\\begincases \\nabla_wL(w,b) = - \\frac1||w||\\sum_x_i \\in My_ix_i \\\\ \\nabla_bL(w,b) = - \\frac1||w||\\sum_x_i \\in My_i \\endcases \\tag 7
∇wL(w,b)=−∣∣w∣∣1∑xi∈Myixi∇bL(w,b)=−∣∣w∣∣1∑xi∈Myi(7)
||w||为w的长度,大小始终非负。
从公式(7)可以看出,||w||的存在,不影响梯度的方法,仅影响梯度下降的步长。
对于感知机梯度下降法的迭代过程,它只要求每次移动的方向是正确的,并不care移动的步长。
所以||w||是否存在不影响感知机算法的最终结果。为什么简化计算,就在目标函数中去掉了分母||w||。
每次迭代不care步长,正是在cs229中被置疑的地方。
以上是关于2-1 感知机原始形式 学习策略的推导的主要内容,如果未能解决你的问题,请参考以下文章