极大似然估计

Posted noahzhixiao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了极大似然估计相关的知识,希望对你有一定的参考价值。

极大似然估计详解

版权声明:本文为博主原创文章https://极大似然估计

?0?2 ?0?2 ?0?2 ?0?2 以前多次接触过极大似然估计最近在看贝叶斯分类总结如下:

 

贝叶斯决策

?0?2 ?0?2 ?0?2 ?0?2 首先来看贝叶斯分类技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 其中:p(w):为先验概率表示在某种类别前提下表示某事发生了有了这个后验概率说明某事物属于这个类别的可能性越大?0?2 ?0?2 ?0?2 ?0?2 我们来看一个直观的例子:已知:在夏季女性穿凉鞋的概率为2/3问题:若你在公园中随机遇到一个穿凉鞋的人?0?2 ?0?2 ?0?2 ?0?2 从问题看某事发生了?0?2 ?0?2 ?0?2 ?0?2 设:技术分享图片

?0?2 ?0?2 ?0?2 ?0?2 由已知可得:

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 男性和女性穿凉鞋相互独立(若只考虑分类问题的取值并不重要)。

?0?2 ?0?2 ?0?2 ?0?2 由贝叶斯公式算出:技术分享图片

 

 

 

问题引出

?0?2 ?0?2 ?0?2 ?0?2 但是在实际问题中并不都是这样幸运的而先验概率技术分享图片和类条件概率(各类的总体分布)技术分享图片都是未知的。根据仅有的样本数据进行分类时然后再套用贝叶斯分类器。

?0?2 ?0?2 ?0?2 ?0?2 先验概率的估计较简单?0?2 ?0?2 ?0?2 ?0?2 类条件概率的估计(非常难)把估计完全未知的概率密度技术分享图片转化为估计参数。这里就将概率密度估计问题转化为参数估计问题概率密度函数的选取很重要在样本区域无穷时如果模型都错了肯定也没啥意义了。

 

重要前提

?0?2 ?0?2 ?0?2 ?0?2 上面说到?0?2 ?0?2 ?0?2 ?0?2?0?2重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)

 

极大似然估计

?0?2 ?0?2 ?0?2 ?0?2 极大似然估计的原理如下图所示:

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 总结起来反推最有可能(最大概率)导致这样结果的参数值。

?0?2 ?0?2 ?0?2 ?0?2 原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法即:“模型已定观察其结果则称为极大似然估计。

?0?2 ?0?2 ?0?2 ?0?2 由于样本集中的样本都是独立同分布来估计参数向量θ。记已知的样本集为:

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 似然函数(linkehood function):联合概率密度函数技术分享图片称为相对于技术分享图片的θ的似然函数。

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 如果技术分享图片是参数空间中能使似然函数技术分享图片最大的θ值那么技术分享图片就是θ的极大似然估计量。它是样本集的函数技术分享图片

 

求解极大似然函数

?0?2 ?0?2 ?0?2 ?0?2 ML估计:求使得出现该组样本的概率最大的θ值。

技术分享图片

 

?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 实际中为了便于分析技术分享图片

技术分享图片

?0?2 ?0?2 ?0?2 ?0?2 1. 未知参数只有一个(θ为标量)

?0?2 ?0?2 ?0?2 ?0?2 在似然函数满足连续、可微的正则条件下技术分享图片

?0?2 ?0?2 ?0?2 ?0?2 2.未知参数有多个(θ为向量)

?0?2 ?0?2 ?0?2 ?0?2 则θ可表示为具有S个分量的未知向量:

技术分享图片

 

?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 记梯度算子:

技术分享图片

 

?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 若似然函数满足连续可导的条件技术分享图片

 

?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 方程的解只是一个估计值它才会接近于真实值。

 

极大似然估计的例子

?0?2 ?0?2 ?0?2 ?0?2 例1:设样本服从正态分布技术分享图片技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 它的对数:

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 求导技术分享图片

 

 

?0?2 ?0?2 ?0?2 ?0?2 联合解得:

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 似然方程有唯一解技术分享图片这是因为当技术分享图片技术分享图片。于是U技术分享图片的极大似然估计为技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 例2:设样本服从均匀分布[a技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 对样本技术分享图片

技术分享图片

 

?0?2 ?0?2 ?0?2 ?0?2 很显然,b)作为a和b的二元函数是不连续的求L(a为使L(ab-a应该尽可能地小否则,b)=0。类似地a不能大过技术分享图片a和b的极大似然估计:

技术分享图片

 

 

 

总结

?0?2 ?0?2 ?0?2 ?0?2 求最大似然估计量技术分享图片的一般步骤:

?0?2 ?0?2 ?0?2 ?0?2 (1)写出似然函数;

?0?2 ?0?2 ?0?2 ?0?2 (2)对似然函数取对数?0?2 ?0?2 ?0?2 ?0?2 (3)求导数;

?0?2 ?0?2 ?0?2 ?0?2 (4)解似然方程。

?0?2 ?0?2 ?0?2 ?0?2 最大似然估计的特点:

?0?2 ?0?2 ?0?2 ?0?2 1.比其他估计方法更加简单;

?0?2 ?0?2 ?0?2 ?0?2 2.收敛性:无偏或者渐近无偏收敛性质会更好;

?0?2 ?0?2 ?0?2 ?0?2 3.如果假设的类条件概率模型正确将导致非常差的估计结果。



















以上是关于极大似然估计的主要内容,如果未能解决你的问题,请参考以下文章

B-概率论-极大似然估计

极大似然估计思想的最简单解释

逻辑回归为啥用最大似然估计求解

极大似然估计

机器学习——极大似然估计

极大似然估计