分类判别式模型——逻辑斯特回归曲线
Posted Caaaaaan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分类判别式模型——逻辑斯特回归曲线相关的知识,希望对你有一定的参考价值。
逻辑斯特回归
Discriminative Model
——判别式模型
Function set
σ ( z ) = 1 1 + e x p ( − z ) P w , b ( C 1 ∣ x ) = σ ( z ) z = w ∗ x + b = ∑ i w i x i + b \\sigma(z)=\\frac11+exp(-z)\\\\ P_w,b(C_1|x)=\\sigma(z)\\\\ z=w*x+b=\\sum_iw_ix_i+b σ(z)=1+exp(−z)1Pw,b(C1∣x)=σ(z)z=w∗x+b=i∑wixi+b
因此我们的Function Set:
f
w
,
b
(
x
)
=
P
w
,
b
(
C
1
∣
x
)
=
σ
(
z
)
f_w,b(x)=P_w,b(C_1|x)=\\sigma(z)
fw,b(x)=Pw,b(C1∣x)=σ(z)
因为z经过了逻辑斯特回归曲线,因此输出在0-1之间
Goodness of a Function
给定一组w和b
L
(
w
,
b
)
=
f
w
,
b
(
x
1
)
f
w
,
b
(
x
2
)
(
1
−
f
w
,
b
(
x
3
)
)
.
.
.
f
w
,
b
(
x
N
)
L(w,b)=f_w,b(x^1)f_w,b(x^2)(1-f_w,b(x^3))...f_w,b(x^N)
L(w,b)=fw,b(x1)fw,b(x2)(1−fw,b(x3))...fw,b(xN)
然后找到
w
∗
和
b
∗
w^*和b^*
w∗和b∗
使得 a r g max w , b L ( w , b ) arg\\max_w,bL(w,b) argmaxw,bL(w,b)
数学上等价于
a
r
g
min
w
,
b
−
ln
L
(
w
,
b
)
arg\\min_w,b-\\ln L(w,b)
argminw,b−lnL(w,b)
−
ln
L
(
w
,
b
)
=
−
l
n
f
w
,
b
(
x
1
)
−
l
n
f
w
,
b
(
x
2
)
−
l
n
(
1
−
f
w
,
b
(
x
3
)
)
.
.
.
-\\ln L(w,b)=-lnf_w,b(x^1)-lnf_w,b(x^2)-ln(1-f_w,b(x^3))...
−lnL(w,b)=−lnfw,b(x1)−lnfw,b(x2)−ln(1−fw,b(x3))...
——当我们将类别用不同的y值做tag时
后面的项数都可以写成如下
最后得到的和项——其实是伯努利分布的交叉熵
交叉熵的含义是,代表两个分布有多接近
如果两个分布一模一样,则交叉熵=0
——因此,本质上,我们是希望找到一个分布,能够与训练集上的分布尽可能的接近
——即 p ( x ) = f w , b ( x n ) p(x)=f_w,b(x^n) p(x)=fw,b(xn) 和 y ^ n \\haty^n y^n 的分布尽可能接近
——而这一步,在数学上的表示是,我们希望最小化两个分布之间的交叉熵
Find the best Function
− ln L ( w , b ) = ∑ n − [ y ^ n ln f w , b ( x n ) + ( 1 − y ^ n ) ln ( l − f w , b ( x n ) ) ] -\\ln L(w,b)=\\sum_n-[\\haty^n\\ln f_w,b(x^n)+(1-\\haty^n)\\ln (l-f_w,b(x^n))] −lnL(w,b)=n∑−[y^nlnfw,b(xn)+(1−y^n)ln(l−fw,b(xn))]
如果找到最优的w和b,用梯度下降法
——求左式子微分
——求右式子微分
——得到整条式子的微分
与线性回归比较
——你会发现逻辑斯特回归曲线和线性回归的梯度下降
求微分的式子一模一样
逻辑斯特曲线为什么不能用square Error
无论最后预测距离目标有多远,你的微分都是非常的平坦
——因此,用Square error是不容易训练得很好的
判别模型 v.s. 生成模型
P ( C 1 ∣ x ) = σ ( w ∗ x + b ) ∙ P ( C 1 ∣ x ) : 直接找 w 和 b P(C_1|x)=\\sigma(w*x+b)\\\\ \\bullet P(C_1|x):直接找w和b\\\\ P(C1∣x)=σ(w∗x+b)∙P(C1∣x):直接找w和b
∙ σ ( w ∗ x + b ) : 找 μ 1 , μ 2 , Σ − 1 然后 w T = ( μ 1 − μ 2 ) T Σ − 1 b = − 1 2 ( μ 1 ) T ( Σ ) − 1 μ 1 + 1 2 ( μ 2 ) T ( Σ ) − 1 μ 2 + ln N 1 N 2 \\bullet\\sigma(w*x+b):找\\mu^1,\\mu^2,\\Sigma^-1\\\\ 然后w^T=(\\mu^1-\\mu^2)^T\\Sigma^-1\\\\ b=-\\frac12(\\mu^1)^T(\\Sigma)^-1\\mu^1 +\\frac12(\\mu^2)^T(\\Sigma)^-1\\mu^2+\\ln\\fracN_1N_2 ∙σ(w∗x+b):找μ1,μ2,Σ−1然后wT=(μ1−μ2)TΣ−1b以上是关于分类判别式模型——逻辑斯特回归曲线的主要内容,如果未能解决你的问题,请参考以下文章