2021-09-24 关于超几何检验的一些理解

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2021-09-24 关于超几何检验的一些理解相关的知识,希望对你有一定的参考价值。

参考技术A 生物信息里面常见的就是KEGG GO 等通路富集时候用到的 超几何检验知识,为了便于理解 这里举个例子:

目前有200个基因具有GO注释,其中60个是GO04

我们得到20个差异基因,其中有11个是GO04,想问GO04这个通路是否在这20个基因中得到了富集??

(即公式中的,N=200,n=20,M=60,i=11);

我们先算抽取从200个基因里面抽20个基因,其中有11个基因具有GO04的概率:

即0.0093

下面为p值的计算公式:即 p-value=1-(p0+p1+p3+...+p10),可以看到如果括号里面的值越大,说明从200个基因里面抽20个,从抽到0个到抽10个基因是GO04通路里面的基因的概率很大,1-累加值就很小,说明我们的结果显著富集(越不可能发生的事情,我们却发生了)。

拓展R语言计算p值:

phyper(11-1,60,140,20,lower.tail = F)=0.0125还是蛮显著的。

如果还不好理解,你可以试试极端的例子,

总共有10个基因,其中5个基因是GO04,我们现在得到5个差异基因,刚好这5个基因都是GO04(不言而喻这绝对很显著了,p值理论上会趋近于0)

1-(p0+p1+p2+p3+p4) = 1-(1/252+25/252+100/252+100/252+25/252)=1/252=0.003968254很显著!

R语言实现:

phyper(5-1,5,5,5,log.p = F,lower.tail=F)

以上是关于2021-09-24 关于超几何检验的一些理解的主要内容,如果未能解决你的问题,请参考以下文章

问题理解 CALayer 几何。需要帮助

对AUC计算公式和几何意义的理解(详细版)

关于进程线程协程管程纤程超线程的对比理解

GO富集分析

在几何画板中切割三棱锥的方法

排序算法学习报告