箱型图和直方图
Posted hellobigorange
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了箱型图和直方图相关的知识,希望对你有一定的参考价值。
试验研究中的利器--强大的直方图和箱线图
之前我们介绍了跟误差线有关的几个概念以及相关的柱状图,散点图,和小提琴图(试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!)。这些图和线都属于“比较统计学”的范畴。今天给大家总结介绍另一大类:“描述统计学”,主要用到的是直方图和箱线图。
总论:
直方图和箱线图是了解连续变量分布的最常用的图形工具。在这两种图中可以找到数据中的下列信息:中位数,分位数,上限,下限,总体数据的变异性和异常值等。另外,这两种图在数据比较方面(比较统计学)也可以发挥很大的作用。下图(Wang et al. 2018)就是一个DH群体中五种不同单倍型在结实小穗数方面的表现差异,虽然少了平均值和SD或SEM,但箱线图配合表示显著性差异的字母在此例中还是非常直观的。
直方图:
直方图想必大家非常熟悉了,尤其是在表示群体对某一表型的分布中应用的非常广泛。值得注意的是,在我们小麦研究中,大部分性状都是多基因控制,所以如果能对直方图做一个normal fitting,然后配上正态性检测,就显得我们的图更加高大上了。即使是单基因控制的抗病性状,我们也可以根据明显不符合正态分布来支持目标性状是由单(或少数)基因控制。
箱线图:
箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:
中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量,等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percentile,三者的联系和区别搞的小编头都大了,想了解更多的请看文末补充内容)。
接下来谈一下小箱子伸出去的两根线,在“标准正态分布”的箱线图中,这两根线是等长的,代表的是1.5倍的IQR区间,所以箱线图的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。
最后是如果有超出上下限的值(大概是2.7个标准差之外),就被叫做异常值了。
下图非常好的展现了一个箱线图中小箱子,上下限,以及异常值跟正态分布图中方差分布之间相互对应的关系。
箱线图的不同表达方式:
上面介绍了最标准的箱线图,但在实际应用过程中,由于数据的分布会稍微偏离或者不符合正态分布,这也就造成了箱线图的不同表达方式:主要是两根线的千变万化以及中位线在小箱子中位置的变化。
Outlier Box Plot (异常值类型,也是Excel 中的默认类型)
这种类型多用于符合正态分布的数据中,借用这种图可以很快的鉴定出异常值。
在这种类型中,一般上下限值等于我们上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在下图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。
分位数类型
这种类型多用于不符合正态分布的数据,借用这种图可以快速的鉴定数据中各种分位数,最大值,最小值等等,从而快速知道某个数值在整个数据中所占的位置(百分位位置)。
在这种类型中,“上下限值”就是数据中的最大值和最小值,然后中间几条小线代表自定义的分位数。如下图中左边的箱线图就是分位数类型,大家也可以比较这个图和直方图以及异常值箱线图的区别。另外,下面两个箱线图箱子里的菱形代表平均值以及上下95%的置信区间。此类型箱线图完美的结合了描述统计学和比较统计学两大功能,属于小编的最爱!
补充内容:
以下两段话和一个英文的链接比较详细的讲述了quantile,quartile,和percentile之间的关系和区别。有兴趣的小伙伴可以看一下。按照小编的理解,以下这个在Stack Exchange上点赞量非高的解释其实是不对的:
正确的用法:
The 2 quantiles = the 50th percentile
the 4 quantiles = the upper quartile = the 75th percentile
N Quantiles 的本意就是把正态分布分成N等份,所以我们可以说the 1000 quantiles,但percentile 只能是从 the 0th 到 the 100th。不过不管怎么说,我发现现在的统计学软件中的quantile都是以percentile形式来计算和展示的(比如正文最后一个图,以及下图中在R中计算quantile)。
“分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。”
“百分位数统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。”
欢迎大神在这个话题上继续补充。
相关推送
1、 试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!
好了本期的文章就到这里了,欢迎大家评论区讨论~
每周一篇研究生科研经验分享,每周五篇文章教你写SCI论文,欢迎关注专栏:
投必得科研软件安装使用手册; 投必得:SCI期刊介绍与选择; 投必得,教你写论文;投必得统计分析大讲堂
这里是论文编辑润色专家,输出科研干货的投必得,我们下篇文章再见ヾ( ̄▽ ̄)Bye~Bye~
以上是关于箱型图和直方图的主要内容,如果未能解决你的问题,请参考以下文章