Lesson 9 - 置信区间

Posted 2023-04-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Lesson 9 - 置信区间相关的知识，希望对你有一定的参考价值。

参考技术A

尝试根据统计量来推断总体参数, 例如钓鱼
如果撒一张网调到鱼的可能性更大, 那么这个网需要多大呢

那么网越大, 那么抓到鱼的信心越大, 因为总体参数总是不会发生改变, 所以就好像水中不会动的鱼一样, 但提供一个区间, 而不仅仅是一个估值, 能够帮助我们增加获得总体参数的信心

那么区间越大, 信心就越大.

通过抽样分布和自助抽样从而计算一个统计量的可能值, 也可以通过这些抽样分布计算一个参数的最可能值, 在实践中一般不知道参数的值

假设这是某个分布的统计量, 我们可以用这个分布为总体参数建立一个置信区间

如果我们想要95%的置信区间, 我们可以去掉前后各2.5%,

如果我们想要99%的置信区间, 可以从两边各去掉0.5%

You can interpret your confidence interval as We are 95% confident, the population mean falls between the bounds that you find. Notice that the percent and the parameter can both change depending on what you are building your confidence interval for, and what percentage you cutoff in each tail.

图中 coffee_red 是 coffee_full 的子集, 是随机抽取的样本
coffee_full 是总体中的所有个体

提示:
为了了解置信区间的效果如何, 往往有总体数据将会很有好处.

计算样本喝咖啡的平均值, 以及喝咖啡且身高的均值数据

接下来使用bootstrapping重新抽样, 并重复10000次, 再次计算喝咖啡并对身高数据的均值可视化

boot_means 是每次抽样200个样本的均值, 并重复10000次的均值列表, 然后对其使用 np.percentile(boot_means, 下限其实百分比) 代表置信区间的起始位置, 因此还需要设置使用同样的方法设置置信区间的结束位置, 如图.

上面的意思是去掉最初的2.5%和最终的2.5%, 在中间建立了95%的区间.

解释为: 在95%的置信区间下, 总体中所有喝咖啡的人的平均身高范围在 68.06 英尺和 68.97 英尺之间.

再次回到总体均值, 计算喝咖啡的人的身高的总体均值

在这个案例中我们的置信区间所示成功的

用什么方法估算两个参数的差, 并建立置信区间?
思考
例如喝咖啡和不和咖啡的人之间的平均身高之间的差是多少? 我们有平均身高差之间的证据吗?

为了建立这两组人的平均身高差, 方法和上述求置信区间的方法类似

然后, 可以对两者的求差的过程进行多次迭代, 并将单词迭代的差值存储于列表中. 见下图

然后对差值列表求相应的置信区间, 认为这两组人的身高差在这个区间范围内.

你发现置信区间内并不包括0, 这表明总体均值是存在差异的.

进一步我们可以说, 平均而言, 喝咖啡的人比不喝咖啡的人高

为均值差建立置信区间的场景有哪些?

例如对不同的网页进行比较, 确定哪个网页能够吸引更大的流量

Statistical vs. Practical Significance

我们已经介绍了置信区间的几种不同应用 ,以及用于创建这些置信区间的一个自助抽样法 ,我们发现创建两组均数差的置信区间 ,而不是只比较两个点估计值这是很重要的 ,能保证已选样本的随机性 ,不是出现这些差的唯一原因 .

置信区间肯定是有用的 ,但是如果只利用置信区间做决策 ,可能会出现问题 ,这就引出了实际显著性和统计显著性的概念 .

我们举一个例子解释这两个术语的区别 ,假设我从事遛狗业务我在网上发广告 ,我想知道这两个广告中的哪一个 ,能给我的业务带来更大的利益 ,我将每个广告发给相同数量的 ,随机选择用户建立置信区间 ,它表明更多的人点击这个广告 ,根据我的置信区间 ,我有统计证据表明第二个广告更好 ,从置信区间中获得的这个证据就是 统计意义 .

假如两个广告 ,都带来了足够大的利益超过了我的处理能力 ,但是第二个广告的制作成本较大耗时较长 ,如果你的一个朋友决定 ,投放类似广告开展他们自己的遛狗业务 ,你推荐他们选择哪种广告？ ,在这个案例中你可能建议他们选择第一个广告 ,即使你在统计学上证明第二个广告更好 ,但第一个广告会对他们的业务带来足够的利益 ,成本较低耗时较少 ,你建议他们采用第一个广告就是 实际意义 的一个例子 .

实际意义会考虑 ,其它方面和我们周围的世界 ,而不是只考虑数字 ,这对做决策来说是非常重要的

使用置信区间和假设检验，您可以在做出决策时提供统计学意义。

但是，在决策时考虑实际意义也很重要。实际意义考虑了您的情况的其他因素，这些因素可能不会直接在您的假设检验或置信区间的结果中考虑。在商业决策中，空间，时间或金钱等限制很重要。但是，它们可能不会直接在统计检验中考虑。

我们目前建立置信区间的方法 ,基于自助法和我们的抽样分布相关知识 ,这是一种极其有效的方法 ,能对我们感兴趣的几乎任何参数建立置信区间

但是如果你在其他地方学习过统计课程 ,你可能会疑惑为什么 ,这种注释法与你在其它课程中学过的不一样 ,你可能见过这种计算总体均值或比例的方程

同样你可能还见过这种 ,计算均数差或比例差的方程

所有这些公式都有可能为真或者可能为假的基本假设, 如果你真的认为你的数据能代表你研究的总体 ,自助法应该能更好地表示参数的可能位置 ,但是在足够大的样本量下 ,这些公式的结果应该 ,与我们在自助法中看到的结果非常相似

在 Python 中建立置信区间的传统方法 ,和这一节课中采用自助抽样的方法进行快速比较

假设检验和建立置信区间的方法有很多 ,例如

许多假设检验 ,与创建置信区间的方法相关联 ,自助抽样法可以代替这些方法中的任何一个

举例说明
bootstrapping法

传统t检验法

对于大样本，这些最终看起来非常相似。对于较小的样本量，使用传统方法可能会假设您的区间不正确。小样本大小对于自举方法来说并不理想，因为它们可能导致误导结果，原因很简单，因为没有准确地代表整个人口。

以下是我们看到政治选举结果的一种常见方法 ,
候选人 A 的得票率是 34%+/-3%
候选人 B 的得票率是 22%+/-3%

你可能会看到 ,用小号字体印刷的内容例如 ,“这些数字基于 95% 的置信区间 ” ,在这个样本中每位候选人的得票率分别是 34% 和 22% ,这个 3% 称为 误差范围(margin of error)

为了建立置信区间 ,我们实际上会加减这个量

所以候选人 A 在总体中的真实比例的 ,置信区间是 31% 至 37% ,
候选人 B 是 19% 至 25% ,

如果每位候选人的置信区间大于我们的预期 ,我们可以收集更大的样本量 ,根据大数定律 ,我们知道样本量越大 ,估值越接近参数因此 ,会缩小区间

Assuming you control all other items of your analysis:

你已经针对如何在实践中 ,建立、解释和使用置信区间进行了大量学习, 我们可以用置信区间做出哪些类型的结论以及不能用它做出哪些类型的结论 ,两者是很容易混淆的

我们建立置信区间时 ,它们针对的是参数 ,即它们针对的是总体中的 单个值 ,这些值包括 总体均值 ,或者 总体标准偏差 , 两个总体均值的差 ,或者总体中的任何其它值摘要

注意: 置信区间 不允许 我们 ,对总体中的 任何个体有任何特定表示

机器学习 中的 更高级技术的目的 在于 ,给我们 提供总体中每个个体的信息

但是一般来说置信区间的目的不是解决这些类型的问题 ,置信区间的目的一般是 ,给你提供总体中的 聚合值

Confidence intervals take an aggregate approach towards the conclusions made based on data, as these tests are aimed at understanding population parameters (which are aggregate population values).

Alternatively, machine learning techniques take an individual approach towards making conclusions, as they attempt to predict an outcome for each specific data point.

In the final lessons of this class, you will learn about two of the most fundamental machine learning approaches used in practice: linear and logistic regression.

怎么理解置信区间

参考技术A 问题一：怎样理解置信区间，解释95%的置信区间通常来说，95%置信区间的意思是我们估计的目标参数有95%的可能性落入某区间。
传统的统计和贝叶斯学派对置信区间的解释是有区别的。
前者的95%置信区间准确的解释应该是重复抽样100次，大约有95%次所估计的参数会落入该区间。而后者对置信区间的解释更接近于我们通常的理解。即有95%的可能落入该区间。

问题二：解释置信水平的含义，以及怎样理解置信区间答：置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

问题三：如何理解 95% 置信区间置信区间是总体参数所在的可能范围。 95%置信区间就是总体参数在这个范围的可能性大概是95%,或者说总体参数在这个范围,但其可信程度只有95%..

问题四：如何理解 95% 置信区间很多答案当中用关于真值的概率描述来解释置信区间是不准确的。我们平常使用的频率学派95% 置信区间的意思并不是真值在这个区间内的概率是 95%。真值要么在，要么不在。由于在频率学派当中，真值是一个常数，而非随机变量，所以我们不对真值做概率描述。对于这个问题来说，理解的关键是我们是对这个构造置信区间的方法做概率描述，而非真值，也非我们算得的这个区间本身。
换言之，我们可以说，如果我们重复取样，每次取样后都用这个方法构造置信区间，有 95% 的置信区间会包含真值。然而我们无法讨论其中某一个置信区间包含真值的概率。
实际上，在特定的情形中我们甚至可以直接断定一个参数不在一个 95% 置信区间中，即使我们构造这个区间的方法完全正确。这更说明我们不能说参数在某一个区间内的概率是多少。
只有贝叶斯学派才会说某个特定的区间包含真值的概率是多少，但这需要我们为真值假设一个先验概率分布。这不适用于我们平常使用的基于频率学派的置信区间构造方法。

问题五：如何理解 95% 置信区间置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概率”。
这个概率被称为置信水平。举例来说，如果在一次大选中某人的支持率为55%，而置信水平0.95以上的置信区间是（50%,60%），那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间，因此他的真实支持率不足一半的可能性小于百分之5。如例子中一样，置信水平一般用百分比表示，因此置信水平0.95上的置信空间也可以表达为：95%置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说，置信水平越高，所对应的置信区间就会越大。”

问题六：什么是置信区间，置信度？它们之间有怎样的关系？请通俗说明，谢谢。置信区间或称置信间距，是指在某一置信度时，总体参数所在的区域距离或区域长度。
置信度又称显著性水平，意义阶段，信任系数等，是指估计总体参数落在某一区间时，可能犯错误的概率，用符号α表示。
在估计总体参数时，一般都会给出一个较高的置信度，如95%或99%等。但是，当样本容量n为一定时，置信度越高，置信区间就越大，也即估计的参数的相对精度就会越低。反之，置信度越低，则精度相对就会越高。解决这一矛盾的方法就是增加样本容量n。

问题七：解释置信水平的含义以及怎样理解置信区间题干不清，不能正常作答

以上是关于Lesson 9 - 置信区间的主要内容，如果未能解决你的问题，请参考以下文章

Python 绘制线性回归散点图和置信区间线

怎么理解置信区间

置信区间、显著性检验和统计学意义

置信区间（Confidence Intervals）是什么？如何计算置信区间？置信区间的两种计算方法是什么？二值样本置信区间如何计算？如何基于bootstrap抽样进行置信区间计算？