GWAS分析- P值计算过程 (七)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GWAS分析- P值计算过程 (七)相关的知识,希望对你有一定的参考价值。

参考技术A

目前针对GWAS分析有很多软件,比如Plink、 Tassel、Gapit、EMMAX、gemma和GCTA等等,这些软件通过输入基因型文件和表型文件,可以直接求出每个标记对应的P值。那么大家有没有好奇在GWAS中P值是如何一步步计算出来的?为了更好理解P值,在这里给大家讲一下P值的计算过程。

首先借助图1中SNP与血压的例子,理解几个基础的统计学概念:
假设检验
➢零假设(H0): 标记与表型无关,即SNP不影响表型。
➢备择假设(H1):与零假设对立的假设,即所选SNP与表型显著关联。
➢若零假设成立的概率很低(<0.05或者<0.01),则拒绝零假设,接受备择假设;否则接受零假设。

两类错误与统计功效
➢I类错误(Type I error): 也叫“弃真错误”,H0为真,统计推断拒绝H0,即假阳性,概率𝞪为显著性水平;
➢II类错误(Type II error): 也叫“取伪错误”,H1为真,统计推断接受H0,即假阴性,概率为𝞫;
➢功效(Power)
检验功效=1-犯第二类错误的概率

Note: Case/Control研究中,一般可以用pearson (1900)推导的X 2 公式来分析,其为:

Case/Control设计

➢收集受影响个体(病例)和未受影响个体(对照)的样本;

➢检查基因位点上存在的等位基因是否与疾病之间存在关联;

➢在双等位遗传位点上,每个个体可以有3种可能的基因型中的一种

1|1, 1|2 = 2|1, 2|2

统计每种基因型在病例和对照中的个数,画列联表如下(表中数据为来源于Heather J. Cordell, Institute of Genetic Medicine Newcastle University, UK),分别计算行列总数以及总和(N)

➢可以重新排列表格以假设显性/隐性效应:

➢还可以重新排列表格以检查等位基因的影响(df=1):

若P值较低(<0.05或者<0.01),则拒绝零假设,接受备择假设,证明等位基因和病例相关;否则接受零假设。

我们有三种方法得出P值:
第一种:查表,利用自由度和X 2 查看对应的P值;
第二种:利用R

第三种:利用Excel中函数CHIDIST, 求P值

可知,P = 2.728338e-10,不符合卡方分布,拒绝零假设,接受备择假设,证明该等位基因与病例相关。

对于复杂的性状,后期继续进一步分析。

往期回顾:
GWAS分析 (一)
https://www.jianshu.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
https://www.jianshu.com/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
https://www.jianshu.com/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
https://www.jianshu.com/p/9944bcbfe3c7
GWAS分析-多个性状的manhattan组合图绘制(五)
https://www.jianshu.com/p/b376a86cb7e3
GWAS分析-P值和beta值的爱恨相杀 (六)
https://www.jianshu.com/p/82ec29f8dc7a

GWAS文献基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因



发表期刊杂志:nature biotechnology
影响因子:41.514
发表时间:2015年2月
发表单位:中科院遗传与发育生物学研究所
 

一、      研究取材
62株野生大豆、130株地方种和110个驯化品种构建的一个自然群体

二、      方法流程
Illumina HiSeq 2000 测序平台,测序文库300bp,样本平均测序深度达到11X

三、      生物信息学分析
群体结构分析、选择清除分析、重要性状的全基因组关联分析

四、      研究结果
1)使用BWA软件将原始数据与参考基因组进行比对,使用samtools将sam格式转化为bam,使用picard软件去掉Duplicated reads。

2)SNP calling使用GATK和samtools,取两者结果的交集。对于GATK参数设置:-stand_call_conf 30。MAF设置为0.01。

3) Indel calling类似于SNP calling,使用GATK的UnifiedGenotyper程序,起参数设置为-glm INDEL,只考虑6bp范围内的缺失和插入。

4)SNP注释使用的软件为ANNOVAR。SNP被注释到内含子(overlap- ping with an intron)、外显子、基因间区,可变剪切位点(within 2 bp of a splicing junction)、5′UTRs 、3′UTRs,, upstream and downstream regions (within a 1 kb region upstream or downstream from the transcription start site).注释在外显子区域的SNP又分为同义和非同义突变。注释到外显子的Indel又分为移码突变和非移码突变。

5)群体结构分析中,PCA使用的是EIGENSOFT 4.2 的smartpca 程序,neighbor-joining tree 使用PHYLIP 3.68软件。结构分层使用FRAPPE,其中k值选取2到7.连锁不平衡分析使用plink软件。关联分析使用的GAPIT 分析软件。
技术分享




























以上是关于GWAS分析- P值计算过程 (七)的主要内容,如果未能解决你的问题,请参考以下文章

2018-10-25 GWAS实战(一) qqman绘制曼哈顿图

GWAS之表型最优无偏预测(BLUP)与遗传力计算

9.2 GWAS:关联分析——TASSEL(GLM/MLM/CMLM)

全基因组关联分析(GWAS)的计算原理

七.软件测试的过程管理

KMP算法的next函数求解和分析过程