极大似然估计——为什么对于离散属性,极大似然估计法得到的类条件概率等于频率?

Posted Vic时代

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了极大似然估计——为什么对于离散属性,极大似然估计法得到的类条件概率等于频率?相关的知识,希望对你有一定的参考价值。

极大似然估计就是最大化对数似然。

假设第c类有K个样本。属性取值为N种,表示为集合X,且取第i个属性值的样本共有 ki k i 个,显然有

i=1Nki=K. ∑ i = 1 N k i = K .

极大似然估计首先假设 P(x|c)=f(x,θc) P ( x | c ) = f ( x , θ c ) ,这个 f(x,θc) f ( x , θ c ) 是自己设定的,比如对于连续的属性,可以假设 f f 是高斯概率密度函数。但是这里是离散的情况,所以假设f(x,θc)=θcx,\'>f(x,θc)=θcx

注意, f f 是概率密度函数,要满足概率条件,即∑x∈Xθcx=1\'>xXθcx=1。上面已经假设了 x x 总共有N种情况。

然后,极大似然估计希望概率分布最大化对数似然:
LL(θc)=log⁡P(Dc|θc)=∑x∈Dclog⁡P(x|θc).\'>LL(θc)=logP(Dc|θc)=xDclogP(x|θc).

于是我们得到离散属性情况下的优化目标:

minθcs.t.xDclogP(x|θc)=xiXkilogP(xi|θc)=xiXkiθxicxiXθxic=1(3)(4) (3) min θ c − ∑ x ∈ D c log ⁡ P ( x | θ c ) = − ∑ x i ∈ X k i log ⁡ P ( x i | θ c ) = − ∑ x i ∈ X k i θ c x i (4) s . t . ∑ x i ∈ X θ c x i = 1

解这个优化问题,得到最优解为

θxic=kiK, θ c x i = k i K ,

也就是在离散情况下,极大似然估计得到的概率就是频率。

对于高斯分布,同样的方法进行推理,只是 f f <script id="MathJax-Element-36" type="math/tex">f</script>的形式不同而已。

以上是关于极大似然估计——为什么对于离散属性,极大似然估计法得到的类条件概率等于频率?的主要内容,如果未能解决你的问题,请参考以下文章

极大似然估计的原理是啥?

贝叶斯分类器(2)极大似然估计、MLE与MAP

逻辑回归为啥用最大似然估计求解

机器学习极大似然估计法

极大似然估计和最小二乘法

概率统计笔记:高斯分布の极大似然法,有偏&无偏估计