信息论最大熵模型与EM算法

Posted 心潇瑶

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了信息论最大熵模型与EM算法相关的知识,希望对你有一定的参考价值。

七月在线4月机器学习算法班课程笔记——No.8

1. 统计学习基础回顾

1.1 先验概率与后验概率

  先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现。
  后验概率:依据得到”结果”信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是”执果寻因”问题中的”因”。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。
  贝叶斯定理:假设B1,B2,...,Bn互斥且构成一个完全事件,已知它们的概率P(Bi),i=1,2,...,n,现观察到某事件A与B1,B2,...,Bn相伴随机出现,且已知条件概率P(A|Bi),求P(Bi|A)
  

P(Bi|A)=P(Bi)P(A|Bi)nj=1P(Bj)P(A|Bj)

【举例分析】一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某
化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人
患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98,P(阴性|cancer)=0.02
P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97

假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:
P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078
P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298
因此,应该判断为无癌症。
确切的后验概率可将上面的结果归一化以使它们的和为1
P(canner|+)=0.0078/(0.0078+0.0298)=0.2
P(cancer|-)=0.79 

1.2 极大似然估计(MLE)

  极大似然估计:已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
  定义:设总体分布为f(x,θ)x1,x2,...,xn为该总体采用得到的样本。因为x1,x2,...,xn独立同分布,于是,它们的联合密度函数为:
  

L(x1,x2,...,xn;θ1,θ2,...,θk)=i=1nf(xi;θ1,θ2,...,θk)

  这里,θ被看作固定但未知的参数;反过来,因为样本已经存在,可以看成x1,x2,...,xn是固定的。L(x,θ)是关于θ的函数,即似然函数。求参数θ的值,使得似然函数取最大值,这种方法就是极大似然估计。
  
  求最大似然函数估计值的一般步骤
1) 写出似然函数;
2) 对似然函数取对数,得到对数似然函数;
3) 若对数似然函数可导,求导,解方程组logL(θ1,θ2,...,θk)=ni=1f(xi;θ1,θ2,...,θk),得到驻点;
4) 分析驻点是极大值点。

  举例:10次抛硬币的结果是:正正反正正正反反正正,假设P是每次抛硬币结果为正的概率。则得到这样的实验结果的概率是:
  

P=pp(1以上是关于信息论最大熵模型与EM算法的主要内容,如果未能解决你的问题,请参考以下文章

概率机器学习(开篇)

最大熵模型 Maximum Entropy Model

最大熵模型

EM算法及其应用GMM/pLSA/LDA

数据挖掘十大算法之EM最大期望估计算法

最大熵与EM算法