李航统计学习方法 Chapter6 最大熵模型
Posted Real&Love
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李航统计学习方法 Chapter6 最大熵模型相关的知识,希望对你有一定的参考价值。
第6章 逻辑斯蒂回归和最大熵模型
逻辑斯谛回归(LR)是经典的分类方法
1.逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。
P ( Y = k ∣ x ) = exp ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) , k = 1 , 2 , ⋯ , K − 1 P(Y=k | x)=\\frac{\\exp \\left(w_{k} \\cdot x\\right)}{1+\\sum_{k=1}^{K-1} \\exp \\left(w_{k} \\cdot x\\right)}, \\quad k=1,2, \\cdots, K-1 P(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) P(Y=K | x)=\\frac{1}{1+\\sum_{k=1}^{K-1} \\exp \\left(w_{k} \\cdot x\\right)} P(Y=K∣x)=1+∑k=1K−1exp(wk⋅x)1
这里, x x x为输入特征, w w w为特征的权值。
逻辑斯谛回归模型源自逻辑斯谛分布,其分布函数 F ( x ) F(x) F(x)是 S S S形函数。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。
2.最大熵模型是由以下条件概率分布表示的分类模型。最大熵模型也可以用于二类或多类分类。
P
w
(
y
∣
x
)
=
1
Z
w
(
x
)
exp
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
P_{w}(y | x)=\\frac{1}{Z_{w}(x)} \\exp \\left(\\sum_{i=1}^{n} w_{i} f_{i}(x, y)\\right)
Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
Z w ( x ) = ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) ) Z_{w}(x)=\\sum_{y} \\exp \\left(\\sum_{i=1}^{n} w_{i} f_{i}(x, y)\\right) Zw(x)=y∑exp(i=1∑nwifi(x,y))
其中, Z w ( x ) Z_w(x) Zw(x)是规范化因子, f i f_i fi为特征函数, w i w_i wi为特征的权值。
3.最大熵模型可以由最大熵原理推导得出。最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。
最大熵原理应用到分类模型的学习中,有以下约束最优化问题:
min − H ( P ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) log P ( y ∣ x ) \\min -H(P)=\\sum_{x, y} \\tilde{P}(x) P(y | x) \\log P(y | x) min−H(P)=x,y∑P~(x)P(y∣x)logP(y∣x)
s . t . P ( f i ) − P ~ ( f i ) = 0 , i = 1 , 2 , ⋯ , n s.t. \\quad P\\left(f_{i}\\right)-\\tilde{P}\\left(f_{i}\\right)=0, \\quad i=1,2, \\cdots, n s.t.P(fi)−P~(fi)=0,i=1,2,⋯,n
∑ y P ( y ∣ x ) = 1 \\sum_{y} P(y | x)=1 y∑P(y∣x)=1
求解此最优化问题的对偶问题得到最大熵模型。
4.逻辑斯谛回归模型与最大熵模型都属于对数线性模型。
5.逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计。逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。
最大熵模型
-
最大熵模型(maximun entropy model)由最大熵原理推导实现,而最大熵原理损失概率模型学习的一个准则。最大熵原理认为,学习概率模型是,所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
-
最大熵原理也可以表述为在满足约束条件的模型集合中取熵最大的模型
-
假设满足所有约束条件的模型的集合为
KaTeX parse error: Got function '\\tilde' with no arguments as subscript at position 29: …n P|E_P(f_i)=E_\\̲t̲i̲l̲d̲e̲{P}({f_i})\\} -
定义在条件概率分布 P ( X ∣ Y ) P(X|Y) P(X∣Y)上的条件熵为
H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) log P ( y ∣ x ) H(P)=-\\sum_{x,y}\\tilde{P}(x)P(y|x)\\log P(y|x) H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
则模型集合C中条件熵 H ( P ) H(P) H(P)最大的模型称为最大熵模型。式中的对数为自然对数。
最大熵模型的学习
- 最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优的问题。最大熵模型的学习就等价与约束最优化问题
- 将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。
- 简单来说,约束最优化问题包含 ≤ 0 \\leq 0 ≤0,和 = 0 =0 =0两种约束条件,这是约束优化问题的一般形式
min x ∈ R n f ( x ) s . t . c i ( x ) ≤ 0 , i = 1 , 2 , … , k h j ( x ) = 0 , j = 1 , 2 , … , l \\begin{aligned} \\min_{x \\in R^n}\\quad &f(x) \\\\ s.t.\\quad&c_i(x) \\leq 0 , i=1,2,\\ldots,k\\\\ &h_j(x) = 0 , j=1,2,\\ldots,l \\end{aligned} x∈Rnmins.t.f(x)ci(x)≤0,i=1,2,…,khj(x)=0,j=1,2,…,l
- 引入广义拉格朗日函数
L
(
x
,
α
,
β
)
=
f
(
x
)
+
∑
i
=
0
k
以上是关于李航统计学习方法 Chapter6 最大熵模型的主要内容,如果未能解决你的问题,请参考以下文章 logistic regression与最大熵模型·最大熵模型 logistic regression与最大熵模型·最大熵模型