最大似然估计与最小二乘
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最大似然估计与最小二乘相关的知识,希望对你有一定的参考价值。
例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法。
MLE可以看作一种特殊情况下的Bayesian 估计,具体来说,就是在prior (先验)是 diffuse (无知的)情况下,让posterior(后验) 分布取得极大值的系数值。我们有一些理论模型,记作 "model",这个model 是什么,在很多实践中,就是一个模型中关键系数的值是什么这样的问题(不同的系数的值,我们称作不同的model) 。我们现在又观测到一组数据,记作"observation"。那么问题来了,给定一个model (一组关键系数的值),必然会有关于observation 的分布密度函数,所以我们知道P(observation|model) (给定一个model,observation的条件分布)的函数形式。
我们真正关心的,却是 P(model|observation) 的函数形式,也就是给定了当前的observation (observation是实际观测到的,是确定下来的),到底不同的model的概率是什么。当然,一个很贪心的做法,就是找到那个能把P(model|observation) 取到最大值的model (给定某个观测,最有可能的model)。
现在根据贝耶斯原理,
P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)
其中P(observation) 不太重要,因为我们想知道不同model 是如何影响 P(model|observation)的,或者是贪心的求P(model|observation)的最大值。而P(observation)已经固定下来了,不随model改变,所以我们无视他。
我们如果知道 P(model)(所谓的Prior) 的函数形式,那么就没有什么问题了。此时的P(model|observation)是一个关于model 的函数。报告这个P(model|observation)作为model的函数的函数形式,就叫贝耶斯估计。可是,这需要我们知道P(model)。实际中我们不知道这个玩意,所以一般我们猜一个。
我们如果承认不知道P(model),认为我们对他是无知的话,那么P(model) = 常数 for all model,此时求P(model|observation) 最大值,也就等价于求P(observation|model) 的最大值,这就叫做MLE。
以上是关于最大似然估计与最小二乘的主要内容,如果未能解决你的问题,请参考以下文章
自动驾驶 8-4: 最小二乘法和最大似然法 Least Squares and the Method of Maximum Likelihood
自动驾驶 8-4: 最小二乘法和最大似然法 Least Squares and the Method of Maximum Likelihood