李航统计学习方法 Chapter6 逻辑斯蒂回归
Posted Real&Love
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李航统计学习方法 Chapter6 逻辑斯蒂回归相关的知识,希望对你有一定的参考价值。
第6章 逻辑斯蒂回归和最大熵模型
逻辑斯谛回归(LR)是经典的分类方法
1.逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。
P ( Y = k ∣ x ) = exp ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) , k = 1 , 2 , ⋯ , K − 1 P(Y=k | x)=\\frac{\\exp \\left(w_{k} \\cdot x\\right)}{1+\\sum_{k=1}^{K-1} \\exp \\left(w_{k} \\cdot x\\right)}, \\quad k=1,2, \\cdots, K-1 P(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) P(Y=K | x)=\\frac{1}{1+\\sum_{k=1}^{K-1} \\exp \\left(w_{k} \\cdot x\\right)} P(Y=K∣x)=1+∑k=1K−1exp(wk⋅x)1
这里, x x x为输入特征, w w w为特征的权值。
逻辑斯谛回归模型源自逻辑斯谛分布,其分布函数 F ( x ) F(x) F(x)是 S S S形函数。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。
2.最大熵模型是由以下条件概率分布表示的分类模型。最大熵模型也可以用于二类或多类分类。
P
w
(
y
∣
x
)
=
1
Z
w
(
x
)
exp
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
P_{w}(y | x)=\\frac{1}{Z_{w}(x)} \\exp \\left(\\sum_{i=1}^{n} w_{i} f_{i}(x, y)\\right)
Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
Z w ( x ) = ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) ) Z_{w}(x)=\\sum_{y} \\exp \\left(\\sum_{i=1}^{n} w_{i} f_{i}(x, y)\\right) Zw(x)=y∑exp(i=1∑nwifi(x,y))
其中, Z w ( x ) Z_w(x) Zw(x)是规范化因子, f i f_i fi为特征函数, w i w_i wi为特征的权值。
3.最大熵模型可以由最大熵原理推导得出。最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。
最大熵原理应用到分类模型的学习中,有以下约束最优化问题:
min − H ( P ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) log P ( y ∣ x ) \\min -H(P)=\\sum_{x, y} \\tilde{P}(x) P(y | x) \\log P(y | x) min−H(P)=x,y∑P~(x)P(y∣x)logP(y∣x)
s . t . P ( f i ) − P ~ ( f i ) = 0 , i = 1 , 2 , ⋯ , n s.t. \\quad P\\left(f_{i}\\right)-\\tilde{P}\\left(f_{i}\\right)=0, \\quad i=1,2, \\cdots, n s.t.P(fi)−P~(fi)=0,i=1,2,⋯,n
∑
y
P
(
y
∣
x
)
=
1
\\sum_{y} P(y | x)=1
y∑P(y∣x)=1
求解此最优化问题的对偶问题得到最大熵模型。
4.逻辑斯谛回归模型与最大熵模型都属于对数线性模型。
5.逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计。逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。
- 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型(maxium entropy model)
- 都属于对数线性模型
逻辑斯蒂模型
-
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。
-
分类问题,可以表示成one-hot的形式,而one-hot可以认为是一种确定概率的表达。而最大熵模型,是一种不确定的概率表达,其中这个概率,是一个条件概率,是构建的特征函数生成的概率
逻辑斯谛分布
- X X X是连续随机变量, X X X服从逻辑斯谛分布,具有以下分布函数和密度函数
F ( x ) = P ( X ⩽ x ) = 1 1 + exp ( − ( x − μ ) / γ ) f ( x ) = F ′ ( x ) = exp ( − ( x − μ ) / γ ) γ ( 1 + exp ( − ( x − μ ) / γ ) ) 2 F(x)=P(X\\leqslant x)=\\frac{1}{1+\\exp(-(x-\\mu)/\\gamma)}\\\\ f(x)=F'(x)=\\frac{\\exp(-(x-\\mu)/\\gamma)}{\\gamma(1+\\exp(-(x-\\mu)/\\gamma))^2} F(x)=P(X⩽x)=1+exp(−(x−μ)/γ)1f(x)=F′(x)=γ(1+exp(−(x−μ)/γ))2exp(−(x−μ)/γ)
- 关于逻辑斯谛, 更常见的一种表达是Logistic function
σ ( z ) = 1 1 + exp ( − z ) \\sigma(z)=\\frac{1}{1+\\exp(-z)} σ(z)=1+exp(−z)1
- 这个函数把实数域映射到(0, 1)区间,这个范围正好是概率的范围, 而且可导,对于0输入, 得到的是0.5,可以用来表示等可能性。
二项逻辑斯谛回归模型
- 二项逻辑斯谛回归模型是如下的条件概率分布:(这里的 w w w是对扩充的权值向量,包含参数 b b b)
P
(
Y
=
1
∣
x
)
=
exp
(
w
⋅
x
)
1
+
exp
(
w
⋅
x
)
=
exp
(
w
⋅
x
)
/
exp
(
w
⋅
x
)
(
1
+
exp
(
w
⋅
x
)
)
/
(
exp
(
w
⋅
x
)
)
=
1
以上是关于李航统计学习方法 Chapter6 逻辑斯蒂回归的主要内容,如果未能解决你的问题,请参考以下文章 logistic regression与最大熵模型·逻辑斯蒂回归模型