最大似然

Posted 2020-10-21 dahu的菜园子

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了最大似然相关的知识，希望对你有一定的参考价值。

参考从最大似然到 EM 算法浅解最大似然估计学习总结 EM 算法及其推广学习笔记

之前已经总结了似然的概念，那么顺其自然的理解就是，求得似然最大值的参数即为想要的参数，也就是参数估计，使用的方法为最大似然估计。

先提出几个问题：

1.最大似然估计求参数的一般流程是怎样的？

2.什么样的场景适合/不适合最大似然估计？为什么

求解步骤：

基于对似然函数 L(θ) 形式 (一般为连乘式且各因式 > 0) 的考虑，求θ的最大似然估计的一般步骤如下：

(1) 写出似然函数

　　总体 X 为离散型时：

　　总体 X 为连续型时：

(2) 对似然函数两边取对数有

　　总体 X 为离散型时：

　　总体 X 为连续型时：

(3) 对

求导数并令之为 0：

此方程为对数似然方程。解对数似然方程所得，即为未知参数的最大似然估计值。

总结一下：

极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

要求θ，只需要使θ的似然函数 L(θ) 极大化，然后极大值对应的θ就是我们的估计。这里就回到了求最值的问题了。怎么求一个函数的最值？当然是求导，然后让导数为 0，那么解这个方程得到的θ就是了（当然，前提是函数 L(θ) 连续可微）。那如果θ是包含多个参数的向量那怎么处理啊？当然是求 L(θ) 对所有参数的偏导数，也就是梯度了，那么 n个未知的参数，就有 n 个方程，方程组的解就是似然函数的极值点了，当然就得到这 n 个参数了。

例子1：　

简单1点：1个参数，1个观察值

继续来看例子，假设进行一个实验，实验次数为 10 次，每次实验成功率为 0.2，那么不成功的概率为 0.8，用

该式子分为两项因子，10 次实验中有 y 次成功，那么即在 10 次中随意挑选 y 个成功的实验，即C10 y（不好编辑， 的意思 ） ；第二项为 10 次实验中，y 次实验成功的概率。更一般地，我们可以把每次实验成功的概率当作一个变量 θ ，则上式可以写为：

显然，

好了，现在假设我们在实验室，开始完成某个实验，我们并不知道该实验成功的概率是多少，但做了 10 次实验后，我们只成功了 2 次，用高中的概率知识拿来求解，那不就是实验成功率为 0.2。的确，但由于实验次数相当的小，这里的 0.2 并非是真正的概率，而只是我们实验成功的频率。如抛一枚硬币，抛个 10 次，可能正面朝上的频率为 0.6，但我们都知道，实际正面朝上的概率为 0.5。那如何让频率接近 0.5 呢，不断的增加实验次数即可，你抛个 2 万次试试。所以我们不能简单的就把这个问题中求解的 0.2 作为我们的答案，我们也不可能大量重复实验来统计该实验成功率。遇到这种情况，我们便用到了似然估计方法。

似然函数：