怎么理解置信区间
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么理解置信区间相关的知识,希望对你有一定的参考价值。
参考技术A 问题一:怎样理解置信区间,解释95%的置信区间 通常来说,95%置信区间的意思是我们估计的目标参数有95%的可能性落入某区间。传统的统计和贝叶斯学派对置信区间的解释是有区别的。
前者的95%置信区间准确的解释应该是重复抽样100次,大约有95%次所估计的参数会落入该区间。而后者对置信区间的解释更接近于我们通常的理解。即有95%的可能落入该区间。
问题二:解释置信水平的含义,以及怎样理解置信区间 答:置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
问题三:如何理解 95% 置信区间 置信区间是总体参数所在的可能范围。 95%置信区间就是总体参数在这个范围的可能性大概是95%,或者说总体参数在这个范围,但其可信程度只有95%..
问题四:如何理解 95% 置信区间 很多答案当中用关于真值的概率描述来解释置信区间是不准确的。我们平常使用的频率学派95% 置信区间的意思并不是真值在这个区间内的概率是 95%。真值要么在,要么不在。由于在频率学派当中,真值是一个常数,而非随机变量,所以我们不对真值做概率描述。对于这个问题来说,理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身。
换言之,我们可以说,如果我们重复取样,每次取样后都用这个方法构造置信区间,有 95% 的置信区间会包含真值 。然而我们无法讨论其中某一个置信区间包含真值的概率。
实际上,在特定的情形中我们甚至可以直接断定一个参数不在一个 95% 置信区间中,即使我们构造这个区间的方法完全正确。这更说明我们不能说参数在某一个区间内的概率是多少。
只有贝叶斯学派才会说某个特定的区间包含真值的概率是多少,但这需要我们为真值假设一个先验概率分布。这不适用于我们平常使用的基于频率学派的置信区间构造方法。
问题五:如何理解 95% 置信区间 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。
这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95以上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之5。 如例子中一样,置信水平一般用百分比表示,因此置信水平0.95上的置信空间也可以表达为:95%置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说,置信水平越高,所对应的置信区间就会越大。”
问题六:什么是置信区间,置信度?它们之间有怎样的关系?请通俗说明,谢谢。 置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
在估计总体参数时,一般都会给出一个较高的置信度,如95%或99%等。但是,当样本容量n为一定时,置信度越高,置信区间就越大,也即估计的参数的相对精度就会越低。反之,置信度越低,则精度相对就会越高。解决这一矛盾的方法就是增加样本容量n。
问题七:解释置信水平的含义以及怎样理解置信区间 题干不清,不能正常作答
查缺补漏
问题1:
怎么理解置信区间(Confidence Interval【CI】)?
参考维基百科:https://en.wikipedia.org/wiki/Confidence_interval做出的理解:
置信区间是一种区间估计。给定置信水平$\alpha$,意味着计算得到对应的置信区间有$(1-\alpha)*100\%$的可能覆盖了参数的真实值。
对于同一个分布的随机变量,我们获取的样本可能不尽相同,如果我们能够从总体中得到无数的样本集,那么从这些样本集计算得到的无数个不同或相同的置信区间,将有$(1-\alpha)*100\%$的比例是包含了参数的真实值的。不是每一个置信区间都能够覆盖参数的真实值。
举例说明:
有一个可以给杯子盛上液体的机器,并且每次盛装液体的重量应该调整为250g。由于机器不能每次都精准地为杯子盛上250g,而是会有一些变动,所以应该把每次盛液体的重量当成一个随机变量X。假设X服从均值为250g,标准差$\sigma=2.5g$的正态分布。要判断这个机器是不是充分校准了,我们随机抽取了$\text{n}=25$个杯子的液体作为样本,并测得它们的重量,得到$X$的一份随机样本$X_1, X_2, ..., X_{25}$。
一个合适的对期望$\mu$的估计是样本均值 \[{\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.\]
对于这份样本,实际的重量均值为:\[{\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2{\text{ grams}}.\]
如果我们取得另一份样本,很有可能计算出来的均值会是 250.4 或者 251.1 grams,等等。如果均值是280 grams的话,相比于实际重量应该接近250 grams的情况而言,这个数字就有些极端了。存在观测值为250.2 grams 的一个邻域(区间),如果总体均值是这个区间中的某个值,都不会认为是不寻常的。这样的一个区间就称为参数$\mu$的置信区间。
这个区间应该如何计算出来?
区间的端点从样本计算得到,所以它们是统计量,是样本$X_1, X_2, ..., X_{25}$的函数,本质也是随机变量。
在这个例子中,我们根据服从正态分布的样本均值也服从正态分布这一点来计算置信区间的端点值,样本均值的期望不变,标准差则变为
\[{\frac {\sigma }{\sqrt {n}}}={\frac {2.5{\text{ g}}}{\sqrt {25}}}=0.5{\text{ grams}}\]
通过标准化后得到一个依赖于被估计的μ随机变量:
\[Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}\]
但这个随机变量的分布——标准正态分布,却不依赖于μ。所以找到和 μ独立的 ?z 和 z,使得随机变量 Z在两个值之间的概率为1-α,或者说决定置信水平为α,是可能的。
取 1 ? α = 0.95作例,则有
\[P(-z\leq Z\leq z)=1-\alpha =0.95.\]
根据z服从卷积正态分布函数(cumulative normal distribution function),有:
\[{\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}\]
从而得到
\[{\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right).\end{aligned}}\]
换句话说,95%的置信区间的下界是:
\[ {\text{Lower endpoint}}={\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}},\]
上界是:
\[ {\text{Upper endpoint}}={\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}.\]
所以在这个例子中,置信区间为:
\[{\begin{aligned}0.95&=\Pr({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5)\\[6pt]&=\Pr({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98).\end{aligned}}\]
这个例子中,标准差$\sigma$是已知的,样本均值${\bar{X}}$的分布是只有$\mu$一个未知参数的正态分布。在其他理论例子,$\sigma$有可能也是未知的,这个时候则应该使用学生T分布(Student‘s t-distribution.)。
----------
两个之前有些模糊的点,我现在这样理解:
1. 在通过置信区间计算置信水平,或者确定置信水平再计算置信区间的过程,我们都基于了样本服从我们指定的分布这样一个假设。
在实际中,除非这个数据是通过模拟得到的,否则很难保证这个假设是成立的。置信区间,本身也只是一个估计而已。它是不是达到了我们期望的置信水平,也是不知道的。
或许也可以通过蒙特卡洛方法做一个大概的估计,但是也还是估计而已。
2. (在假设成立的条件下)可以这样理解上面出现的概率。
1)指在参数已知的情况下,出现该统计量结果处于置信区间范围的概率(因为最开始是$P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)$);
2)指根据该统计量结果,对应参数可能被计算得到的置信区间覆盖的概率。
以上是关于怎么理解置信区间的主要内容,如果未能解决你的问题,请参考以下文章