查缺补漏
Posted RRRR-cord
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了查缺补漏相关的知识,希望对你有一定的参考价值。
问题1:
怎么理解置信区间(Confidence Interval【CI】)?
参考维基百科:https://en.wikipedia.org/wiki/Confidence_interval做出的理解:
置信区间是一种区间估计。给定置信水平$\alpha$,意味着计算得到对应的置信区间有$(1-\alpha)*100\%$的可能覆盖了参数的真实值。
对于同一个分布的随机变量,我们获取的样本可能不尽相同,如果我们能够从总体中得到无数的样本集,那么从这些样本集计算得到的无数个不同或相同的置信区间,将有$(1-\alpha)*100\%$的比例是包含了参数的真实值的。不是每一个置信区间都能够覆盖参数的真实值。
举例说明:
有一个可以给杯子盛上液体的机器,并且每次盛装液体的重量应该调整为250g。由于机器不能每次都精准地为杯子盛上250g,而是会有一些变动,所以应该把每次盛液体的重量当成一个随机变量X。假设X服从均值为250g,标准差$\sigma=2.5g$的正态分布。要判断这个机器是不是充分校准了,我们随机抽取了$\text{n}=25$个杯子的液体作为样本,并测得它们的重量,得到$X$的一份随机样本$X_1, X_2, ..., X_{25}$。
一个合适的对期望$\mu$的估计是样本均值 \[{\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.\]
对于这份样本,实际的重量均值为:\[{\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2{\text{ grams}}.\]
如果我们取得另一份样本,很有可能计算出来的均值会是 250.4 或者 251.1 grams,等等。如果均值是280 grams的话,相比于实际重量应该接近250 grams的情况而言,这个数字就有些极端了。存在观测值为250.2 grams 的一个邻域(区间),如果总体均值是这个区间中的某个值,都不会认为是不寻常的。这样的一个区间就称为参数$\mu$的置信区间。
这个区间应该如何计算出来?
区间的端点从样本计算得到,所以它们是统计量,是样本$X_1, X_2, ..., X_{25}$的函数,本质也是随机变量。
在这个例子中,我们根据服从正态分布的样本均值也服从正态分布这一点来计算置信区间的端点值,样本均值的期望不变,标准差则变为
\[{\frac {\sigma }{\sqrt {n}}}={\frac {2.5{\text{ g}}}{\sqrt {25}}}=0.5{\text{ grams}}\]
通过标准化后得到一个依赖于被估计的μ随机变量:
\[Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}\]
但这个随机变量的分布——标准正态分布,却不依赖于μ。所以找到和 μ独立的 ?z 和 z,使得随机变量 Z在两个值之间的概率为1-α,或者说决定置信水平为α,是可能的。
取 1 ? α = 0.95作例,则有
\[P(-z\leq Z\leq z)=1-\alpha =0.95.\]
根据z服从卷积正态分布函数(cumulative normal distribution function),有:
\[{\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}\]
从而得到
\[{\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right).\end{aligned}}\]
换句话说,95%的置信区间的下界是:
\[ {\text{Lower endpoint}}={\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}},\]
上界是:
\[ {\text{Upper endpoint}}={\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}.\]
所以在这个例子中,置信区间为:
\[{\begin{aligned}0.95&=\Pr({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5)\\[6pt]&=\Pr({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98).\end{aligned}}\]
这个例子中,标准差$\sigma$是已知的,样本均值${\bar{X}}$的分布是只有$\mu$一个未知参数的正态分布。在其他理论例子,$\sigma$有可能也是未知的,这个时候则应该使用学生T分布(Student‘s t-distribution.)。
----------
两个之前有些模糊的点,我现在这样理解:
1. 在通过置信区间计算置信水平,或者确定置信水平再计算置信区间的过程,我们都基于了样本服从我们指定的分布这样一个假设。
在实际中,除非这个数据是通过模拟得到的,否则很难保证这个假设是成立的。置信区间,本身也只是一个估计而已。它是不是达到了我们期望的置信水平,也是不知道的。
或许也可以通过蒙特卡洛方法做一个大概的估计,但是也还是估计而已。
2. (在假设成立的条件下)可以这样理解上面出现的概率。
1)指在参数已知的情况下,出现该统计量结果处于置信区间范围的概率(因为最开始是$P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)$);
2)指根据该统计量结果,对应参数可能被计算得到的置信区间覆盖的概率。
以上是关于查缺补漏的主要内容,如果未能解决你的问题,请参考以下文章