[概率论与数理统计]笔记:5.2 参数的最大似然估计与矩估计

Posted feixianxing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[概率论与数理统计]笔记:5.2 参数的最大似然估计与矩估计相关的知识,希望对你有一定的参考价值。

记录极大似然估计和矩估计的简要概念、做题模板和例题。

5.2 参数的最大似然估计与矩估计

估计其实就是猜数。

最大似然估计

基本思想

  • 概率大的事件比概率小的事件更易发生。
  • 将使事件\\(A\\)发生的概率最大的参数\\(\\theta\\)作为估计值。

案例

总体:100个球(黑球或白球)

需要估计的参数:黑球的个数\\(\\theta=99\\)\\(1\\)

抽样:摸球并放回

结论:

如果经常摸出黑球,则估计\\(\\theta=99\\)

如果经常摸出白球,则估计\\(\\theta=1\\)

做题模板

  1. 写出总体的概率函数/密度函数。(分别对应离散型/连续型)

  2. 写出似然函数\\(L(\\theta)\\).

    似然函数表示取得样本的概率,所以是概率函数值相乘的格式,求导很复杂,所以要使用自然对数将乘除转化为加减。

  3. 两边取\\(\\ln\\).

  4. 两边对参数\\(\\theta\\)求(偏)导,令(偏)导数=0,使得似然函数取最大值的参数\\(\\theta\\)就是估计值。


例题

泊松分布例题

例1:总体\\(X\\sim P(\\lambda)\\),样本\\((X_1,\\cdots,X_n)\\),求\\(\\lambda\\)的极大似然估计。

总体的概率函数为:

\\[P\\X=k\\=\\frac\\lambda^kk!e^-\\lambda \\quad (k=0,1,2,\\cdots) \\]

\\(\\lambda\\)似然函数为:

\\[L(\\lambda)=\\prod\\limits_i=1^n\\frac\\lambda^x_ix_i!e^-\\lambda =\\frac\\lambda^x_1+x_2+\\cdots+x_n\\prod\\limits_i=1^nx_i!e^-n\\lambda \\]

似然函数的因变量只有\\(\\lambda\\).

这里的\\(x_i\\)都是具体的样本观测值,也就是常数,因此下面求导的时候可以直接去掉。

两边取\\(\\ln\\)

\\[\\ln L(\\lambda)=-\\ln \\prod\\limits_i=1^nx_i!+(x_1+\\cdots+x_n)\\ln \\lambda-n\\lambda \\]

两边对\\(\\lambda\\)求导,并令导数为0

\\[\\frac\\mathrmd\\ln L(\\lambda)\\mathrmd\\lambda =\\fracx_1+\\cdots+x_n\\lambda-n =0 \\]

因此\\(\\hat\\lambda = \\fracx_1+\\cdots+x_nn=\\overlineX\\)


指数分布例题

例2:总体\\(X\\sim e(\\lambda)\\),样本\\((X_1,\\cdots,X_n)\\),求\\(\\lambda\\)的极大似然估计。

总体的密度函数为:

\\[f(x;\\lambda)= \\left\\ \\beginalign* & \\lambda e^-\\lambda x,\\quad x>0 \\\\ & 0, \\quad\\quad\\quad x\\le 0 \\endalign* \\right. \\]

\\(\\lambda\\)似然函数为:

\\[L(\\lambda)=\\prod\\limits_i=1^n\\lambda e^-\\lambda x =\\lambda^ne^-\\lambda(x_1+\\cdots+x_n) \\]

这里的\\(f(x;\\lambda)\\)不会取到0的情况,因为样本已经取到了,认为其概率就是大于0的。

存疑:概率为0的事件也可能会发生,但是这里似乎忽略了这种情况?

两边取\\(\\ln\\)

\\[\\ln L(\\lambda)=n\\lambda - \\lambda(x_1+\\cdots+x_n) \\]

两边对\\(\\lambda\\)求导,并令导数为0

\\[\\frac\\mathrmd\\ln L(\\lambda)\\mathrmd\\lambda =\\fracn\\lambda-(x_1+\\cdots+x_n) =0 \\]

因此\\(\\hat\\lambda = \\fracnx_1+\\cdots+x_n=\\frac1\\overlineX\\)


正态分布例题

例3:总体\\(X\\sim N(\\mu,\\sigma^2)\\),样本\\((X_1,\\cdots,X_n)\\),求\\(\\mu,\\sigma^2\\)的极大似然估计。

总体的密度函数为:

\\[f(x;\\mu,\\sigma^2)= \\frac1\\sqrt2\\pi\\sigmae^-\\frac(x-\\mu)^22\\sigma^2 \\]

\\(\\mu, \\sigma^2\\)似然函数为:

\\[L(\\mu, \\sigma^2) =\\prod\\limits_i=1^n\\frac1\\sqrt2\\pi\\sigmae^-\\frac(x_i-\\mu)^22\\sigma^2 =(\\frac1\\sqrt2\\pi)^n(\\frac1\\sigma)^ne^-\\frac(x_1-\\mu)^2+\\cdots+(x_n-\\mu)^22\\sigma^2 \\]

两边取\\(\\ln\\)

\\[\\ln L(\\mu, \\sigma^2) =n\\ln\\frac1\\sqrt2\\pi-\\fracn2\\ln\\sigma^2-\\frac(x_1-\\mu)^2+\\cdots+(x_n-\\mu)^22\\sigma^2 \\]

先对\\(\\mu\\)求偏导,并令偏导数为0

\\[\\beginalign* \\frac\\partial\\ln L(\\mu,\\sigma^2)\\partial \\mu &= - \\frac[-2(x_1-\\mu)]+\\cdots+[-2(x_n-\\mu)]2\\sigma^2 \\\\ &= \\frac(x_1-\\mu)+\\cdots+(x_n-\\mu)\\sigma^2 \\\\ &= \\fracx_1+\\cdots+x_n-n\\mu\\sigma^2 \\\\ &= 0 \\endalign* \\]

因此\\(\\hat\\mu= \\fracx_1+\\cdots+x_nn=\\overlineX\\).

再将\\(\\sigma^2\\)作为整体对其求偏导

\\[\\frac\\partial\\ln L(\\mu,\\sigma^2)\\partial \\sigma^2 =-\\fracn2\\frac1\\sigma^2+\\frac(x_1-\\mu)^2+\\cdots+(x_n-\\mu)^22\\sigma^4 =0 \\]

化简得

\\[\\hat\\sigma^2 = \\frac\\sum\\limits_i=1^n(x_i-\\mu)^2n=B_2 \\]


均匀分布例题

例4:总体\\(X\\)服从\\([\\theta_1,\\theta_2]\\)上的均匀分布,样本\\((X_1,\\cdots,X_n)\\),求\\(\\theta_1,\\theta_2\\)的极大似然估计。

总体的密度函数为:

\\[f(x)= \\left\\ \\beginalign* & \\frac1\\theta_2-\\theta_1,\\quad x\\in[\\theta_1,\\theta_2] \\\\ & 0, \\quad\\quad\\quad\\quad else \\endalign* \\right. \\]

\\(\\theta_1,\\theta_2\\)似然函数为:

\\[L(\\theta_1,\\theta_2)=\\prod\\limits_i=1^n\\frac1\\theta_2-\\theta_1=\\frac1(\\theta_2-\\theta_1)^n \\]

均匀分布是特殊情况,不能使用做题模板。

如果继续使用取对数求导的思路,会出现:

\\[\\fracn\\theta_2-\\theta_1=0 \\]

这样的情况,无法再继续求解。

因此应该转换思路。

为了取得似然函数的最大值,那么\\((\\theta_2-\\theta_1)\\)应该取最小值,也就是区间越小越好,但又要包含样本。

因此:

  • \\(\\hat\\theta_1=\\min\\x_1,\\cdots,x_n\\\\)
  • \\(\\hat\\theta_2=\\max\\x_1,\\cdots,x_n\\\\)

矩估计

基本思想

使用相应的样本矩去估计总体矩

使用相应的样本矩的函数去估计总体矩的函数

"相应的":一阶对应一阶,二阶对应二阶......

例题

例1\\(X\\sim N(\\mu, \\sigma^2)\\)\\((X_1,\\cdots,X_n)\\)是样本,求\\(\\mu,\\sigma^2\\)的矩估计。

  • 总体的一阶原点矩:\\(EX=\\mu\\)

  • 样本的一阶原点矩:\\(\\overlineX=\\frac1n\\sum\\limits_i=1^nX_i\\)

使用样本矩估计总体矩:\\(\\hat\\mu=\\overlineX\\)

  • 总体的二阶原点矩:\\(EX^2\\)

因为\\(DX=EX^2-(EX)^2\\)

所以\\(EX^2=DX+(EX)^2=\\sigma^2+\\mu^2\\)

  • 样本的二阶原点矩:\\(A_2=\\frac1n\\sum\\limits_i=1^nX_i^2\\).

所以\\(\\hatEX^2=\\frac1n\\sum\\limits_i=1^nX_i^2\\).

所以

\\[\\beginalign* \\hat\\sigma^2 &= \\hatEX^2-\\hat\\mu^2 \\\\ &= \\frac1n\\sum\\limits_i=1^nX_i^2-\\overlineX^2 \\\\ &= \\frac1n\\sum\\limits_i=1^n(X_i-\\overlineX)^2 \\endalign* \\]

这里最后的等号没有写错,可以反过来计算证明其正确性:

\\[\\beginalign* \\frac1n\\sum\\limits_i=1^n(X_i-\\overlineX)^2 &= \\frac1n\\sum\\limits_i=1^n(X_i^2-2X_i\\overlineX+\\overlineX^2) \\\\ &= \\frac1n\\sum X_i^2-2\\overlineX(\\frac1n\\sum X_i)+\\frac1nn\\overlineX^2 \\\\ &= \\frac1n\\sum X_i^2-2\\overlineX\\overlineX+\\overlineX^2 \\\\ &= \\frac1n\\sum X_i^2 -\\overlineX^2 \\endalign* \\]

因此:

\\(\\frac1n\\sum X_i^2 -\\overlineX^2=\\frac1n\\sum\\limits_i=1^n(X_i-\\overlineX)^2\\)

这里的\\(\\frac1n\\sum\\limits_i=1^n(X_i-\\overlineX)^2\\)其实就是二阶中心矩\\(B_2\\).

所以\\(\\hat\\sigma^2=B_2\\).

正态分布的两个参数的极大似然估计和矩估计的结果是一致的。

例2\\(X\\sim P(\\lambda)\\)\\((X_1,\\cdots,X_n)\\),求\\(\\lambda\\)的矩估计.

泊松分布的期望和方差都是\\(\\lambda\\),也就是说可以列出两个方程:

  • \\(\\hat\\lambda=\\overlineX\\)
  • \\(\\hat\\lambda=B_2\\)

究竟使用哪个作为估计值可以采取评价估计量的标准进行评估,比如有效性。这里使用一阶的\\(\\hat\\lambda=\\overlineX\\)更好。

例3\\(X\\)服从\\([\\theta_1,\\theta_2]\\)上的均匀分布,求\\(\\theta_1,\\theta_2\\)的矩估计。

根据均匀分布的性质,有

  • \\(EX=\\frac12(\\theta_1+\\theta_2)\\)
  • \\(DX=\\frac(\\theta_2-\\theta_1)^212\\)

第一个式子可以用均值估计:\\(\\frac12(\\hat\\theta_1+\\hat\\theta_2)=\\overlineX\\)

同时,有\\(DX=EX^2-(EX)^2=EX^2-\\frac(\\theta_1+\\theta_2)^24\\)

所以\\(EX^2=\\frac(\\theta_2-\\theta_1)^212+\\frac(\\theta_1+\\theta_2)^24\\).

\\(EX^2\\)使用\\(A_2=\\frac1n\\sum\\limits_i=1^nX_i^2\\)近似,样本是已知的,所以\\(A_2\\)是可计算的已知的量。

所以\\(\\frac(\\hat\\theta_2-\\hat\\theta_1)^212+\\frac(\\hat\\theta_1+\\hat\\theta_2)^24=A_2\\)

综上,可以列出两个方程用于求解\\(\\hat\\theta_1,\\hat\\theta_2\\)

\\[\\left\\ \\beginalign* & \\frac12(\\hat\\theta_1+\\hat\\theta_2)=\\overlineX \\\\ & \\frac(\\hat\\theta_2-\\hat\\theta_1)^212+\\frac(\\hat\\theta_1+\\hat\\theta_2)^24=A_2 \\\\ \\endalign* \\right. \\]

求解得到:

\\[\\left\\ \\beginalign* & \\hat\\theta_1 = \\overlineX-\\sqrt3B_2 \\\\ & \\hat\\theta_2 = \\overlineX+\\sqrt3B_2 \\endalign* \\right. \\]

使用教材:
《概率论与数理统计》第四版 中国人民大学 龙永红 主编 高等教育出版社

以上是关于[概率论与数理统计]笔记:5.2 参数的最大似然估计与矩估计的主要内容,如果未能解决你的问题,请参考以下文章

《概率统计》经典统计推断:寻找最大似然

似然函数

极大似然估计的原理是啥?

详解最大似然估计(MLE)最大后验概率估计(MAP),以及贝叶斯公式的理解(转)

最大似然估计法的原理

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解