2021-09-24 关于超几何检验的一些理解
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2021-09-24 关于超几何检验的一些理解相关的知识,希望对你有一定的参考价值。
参考技术A 生物信息里面常见的就是KEGG GO 等通路富集时候用到的 超几何检验知识,为了便于理解 这里举个例子:目前有200个基因具有GO注释,其中60个是GO04
我们得到20个差异基因,其中有11个是GO04,想问GO04这个通路是否在这20个基因中得到了富集??
(即公式中的,N=200,n=20,M=60,i=11);
我们先算抽取从200个基因里面抽20个基因,其中有11个基因具有GO04的概率:
即0.0093
下面为p值的计算公式:即 p-value=1-(p0+p1+p3+...+p10),可以看到如果括号里面的值越大,说明从200个基因里面抽20个,从抽到0个到抽10个基因是GO04通路里面的基因的概率很大,1-累加值就很小,说明我们的结果显著富集(越不可能发生的事情,我们却发生了)。
拓展R语言计算p值:
phyper(11-1,60,140,20,lower.tail = F)=0.0125还是蛮显著的。
如果还不好理解,你可以试试极端的例子,
总共有10个基因,其中5个基因是GO04,我们现在得到5个差异基因,刚好这5个基因都是GO04(不言而喻这绝对很显著了,p值理论上会趋近于0)
1-(p0+p1+p2+p3+p4) = 1-(1/252+25/252+100/252+100/252+25/252)=1/252=0.003968254很显著!
R语言实现:
phyper(5-1,5,5,5,log.p = F,lower.tail=F)
以上是关于2021-09-24 关于超几何检验的一些理解的主要内容,如果未能解决你的问题,请参考以下文章