标准误，标准差，置信区间分不清？派森诺教你画误差线

Posted 2023-04-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了标准误，标准差，置信区间分不清？派森诺教你画误差线相关的知识，希望对你有一定的参考价值。

参考技术A 在任何一种测量中，无论所用仪器多么精密，方法多么完善，实验者多么细心，不同时间所测得的结果不一定完全相同，会有一定的误差和偏差，严格来讲，误差是指实验测量值（包括直接和间接测量值）与真值（客观存在的准确值）之差，偏差是指实验测量值与平均值之差。

误差分析的目的就是评定实验数据的准确性，通过误差分析，认清误差的来源及其影响，依据分析结果减小误差，提高数据的准确性。

接下来，给大家介绍一款，误差分析的可视化工具。

图1 误差折线图

正式介绍实现方法之前，我们先来了解下误差折线图涉及的三个统计概念。

01、三个概念

1. 标准误（Standard Error，SE）

标准误差（简称标准误）表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本，每一种样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计，标准误是由样本的标准差除以样本容量的开平方来计算的。从公式可以看到，标准误更大的是受到样本容量的影响。样本容量越大，标准误越小，那么抽样误差就越小，就表明所抽取的样本能够较好地代表总体。

se = sd(vec) / sqrt(length(vec))

2.标准差（Standard Deviation，SD）

标准偏差（简称标准差）是样本平均数方差的开平方。它反映组内个体间的离散程度。标准差通常是相对于样本数据的平均值而定的，通常用M±SD来表示样本数据观察值和平均值的差距。从公式可以看出，标准差会受到极值的影响。标准差越小，表明数据越聚集；标准差越大，表明数据越离散。

# R 语言实现函数

sd <- sd(vec)

sd <- sqrt(var(vec))

3. 置信区间（Confidence Interval，CI）

所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间，是这个参数的真实值在一定概率条件下落在测量结果周围的程度。

# R 语言实现

alpha=0.05

t=qt((1-alpha)/2 + .5, length(vec)-1) # tend to 1.96 if sample size is big enough

CI=t*se

02、平台实现

首先，登入派森诺基因云, 进入【云图汇→ 误差折线图】

1. 准备数据

准备图2所示数据，数据文件第一列对应的是分组，第二列对应的是变量名称，第三列对应的是变量数值。

图2 数据示例

2. 提交绘图

上传数据后，一键提交绘图即可。

图3 上传数据示例

3. 参数调整

1.图表样式：添加网络线和边框。

图4 添加网络线和边框示例

2.线条样式：大家可以选择添加平滑曲线，让线段更自然，更好看。同时也可以调整线条的粗细，以及样式。

图5 平滑曲线示例

图6 线条粗细和样式示例

3.差值计算：可切换为标准误，标准差，置信度。多角度描述图表信息。

图7 差值计算示例

1. 基础概念 (统计分布抽样置信区间标准差)

统计分布

抽样

置信区间

标准误

StatQuest（https://statquest.org/)是一个非常好的生物统计学课程，课程简单明了，几乎涵盖了目前生信所用到的全部统计学知识，作者不会过于使用复杂难明的式子，清晰简单的解释出复杂的统计学术语，非常适合统计学新手由浅入深地了解生信工具的内在统计学原理。

But I wanted them to understand that what I do isn’t magic – it’s actually quite simple. It only seems hard because it’s all wrapped up in confusing terminology and typically communicated using equations.

—— Josh Starmer (author of StatQuest)

本周开始，我将和大家一起学习分享StatQuest课程。

作者的所有课程都上传在YouTube上，有上网条件的可以去学习，课程列表在https://statquest.org/video-index/，整个课程体系是比较完备的，不过我会从中挑选部分内容来进行学习分享。

一.统计分布

首先从一个场景开始，假设你在参加一个Party，无意中听到有人在讨论统计学，并且正好讨论到了统计分布，那么什么是统计分布呢？（作者举的这个话题引入的例子看起来真的很直接，这是得多喜欢统计学，连party都不放过）

假设我们在统计测量Party上参会人的身高，身高分别是5.2，5.8，5.6，5.9，5.1，6.3，...（英尺），那么你可以将他们逐个表示到一个图形上，如下图，每个红球代表一个身高数据，下面的蓝框代表身高的范围。

这样的长条组合在一起时可以叫做直方图，可以看到大部分人的身高在5-6英尺。

技术分享图片

如果将蓝框的范围减小，那么可以看到这个直方图会变得更加平滑和精确，大部分人的身高集中在5.25-5.75之间。

技术分享图片

如果继续增加身高数据和降低蓝框的范围，那么就可以得到下面的直方图：

技术分享图片

同时，我们还可以在这个直方图上画一条平滑曲线，来代表这种数据趋势（大部分人的身高在5-6之间，少部分在5以下和6以上）。

这个平滑曲线还有很多优点，直方图右侧是有一个空缺的，导致无法知道身高在此区间的概率是多少，但是平滑曲线是可以给出这个答案的，而且它不会受到直方图的分段大小（图一中的蓝框）的影响。

再比如在我们没有足够的财力和精力去测定全部总体数据时，一个基于平均数和标准差的平滑曲线就可以帮我们很好的理解数据趋势。

技术分享图片

图中的直方图和平滑曲线就是统计分布，它可以告诉我们测量值的概率是怎么分布的，主要集中在哪些范围，哪些数据出现的概率很低。

除了这个例子中的分布外，还有很多其他分布，他们的数据趋势都可以帮我们理解大量的自然数据。

二. 抽样

绝大部分情况下，从一个特定的分布中抽样，其实就是我们利用计算机生成一个随机数，且这个随机数得抽取满足直方图或平滑曲线描述的数据趋势，以上图的趋势图为例，越靠近中间的数值越容易被抽到，而越偏离中间的数值越不容易被抽到。

进一步的，我们将可以抽样得到的样本进行t检验，就可以探索这其中发生了什么：

假设下图的一个分布，随机取了两个样本，每个样本3个数值，由于两个样本服从同一分布，因此它们都更倾向于取值在中间区域（如图），因此t检验也会给出较大的p值（p值就是可能性，p越大代表可能性越大，此处就代表两者来自于同一分布的可能性越大）：

技术分享图片

但是如果两个样本来自于两个不同的分布，那么由于它们两个的中间区域不一样，因此t检验就会倾向于给出较小的p值：

技术分享图片

三.置信区间

想直观了解置信区间是什么，要先从bootstrap谈起：

假定我们要估计一群雌性小鼠的体重，抽样12个小鼠，称重，计算均值如下图。

技术分享图片

然后我们就可以使用bootstrap方法，得出这个样本的均值的置信区间，如下图，

从这12个样本数据中随机抽取12个数据（有放回）；
计算这个样本的均值；
重复步骤1、2，直到计算到足够多的均值（如1000次，10000次等）

技术分享图片

一般常用的95%置信区间就是覆盖了中间95%的均值的区间（如下图黑线所示），这其实就是置信区间了。

技术分享图片

置信区间有什么用？

95%置信区间代表覆盖了均值95%的范围，超出这个范围的数值的出现次数都是<5%的，因此所有超出95%置信区间的数值的p值都是<0.05，都是显著的。

假如要比较雌性和雄性小鼠的体重，得到如下的置信区间结果，那么根据两者置信区间没有交界，就可以知道两者差异显著。

技术分享图片

Bootstrap跟传统的区间估计是有些相似的，但是更有普适性。

无论总体的分布是什么样，我们知道样本均值是渐进正态分布的（假设总体均值存在）。利用渐进分布我们就可以构造样本均值的置信区间，但是问题是，要多少样本量才收敛到渐进分布呢？

如果总体不是常见分布，我们很难判断近似程度。并且，有的时候渐进分布很难写出来。Bootstrap就提供了一种灵活的，绝大多数情况都有效的方法，去判断统计量的是否合适。