重复一篇文献的GWAS(二):用GEMMA跑GWAS

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了重复一篇文献的GWAS(二):用GEMMA跑GWAS相关的知识,希望对你有一定的参考价值。

参考技术A

上一篇写的是: 重复一篇文献的GWAS(一):基因型数据整理
这一篇主要讲GWAS的核心流程和画图。

软件使用参考:
使用GEMMA进行复杂性状全基因组关联分析(GWAS)
https://www.jianshu.com/p/d31404620c9b
github
https://github.com/genetics-statistics/GEMMA
https://github.com/genetics-statistics/GEMMA/blob/master/doc/manual.pdf

以上几个文件格式需要熟悉一下。

前面没有输入表型信息,172sample_maf_filter_snpID_LD_filter.ped文件和clean_snp.fam文件的第6列都是-9,默认值。所有样本的表型值在文献补充材料中都能找到,注意样本顺序替换表型值即可。

混合线性模型既考虑了群体分层,也考虑了样本之间的关系。

上述GWAS.assoc.txt文件就是我们需要的结果,可以用来做判断以及画图。但是p值应该如何确定呢?

Bonferroni-corrected :0.05除以标记数,以此作为显著水平线。原文是1.5E-07,我这里是1.49E-07。换句话说就是,原来的p值乘以标记数仍然能小于0.05的就符合要求。

使用rMVP包

会生成GWAS分析的所有数据文件,以及PCA作图的文件

读取这些文件

运行程序,此处计算方差组分的方法是"EMMA"

我将两次(一次是严格按照文献步骤--GEMMA软件,一次是用MVP包--EMMA算法)的结果取top 100 SNPs看交集,可以看到70%的重叠。我认为这个重叠还算合理,所以觉得我前面的分析问题不大,和原文献有差别的原因可能是:①19样本缺失;②根据LD过滤后余下的SNP有差异(因为对于原文找到的top SNPs来看,在我过滤得到的335.6K的SNP中基本找不到)

接下来画图。

文献中,关于GWAS这一块的图有:①所有样本地理位置与种子大小的图;②样本表型值的概率密度图与直方图;③曼哈顿图;④top SNPs的累积效应图。

①、④还没有画过,有时间补一下;②之前写过—— 正态分布检验 ,QQ图的原理也在这一篇中写过;这里画一下曼哈顿图和QQ图。

曼哈顿图、QQ图

GWAS文献基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因



发表期刊杂志:nature biotechnology
影响因子:41.514
发表时间:2015年2月
发表单位:中科院遗传与发育生物学研究所
 

一、      研究取材
62株野生大豆、130株地方种和110个驯化品种构建的一个自然群体

二、      方法流程
Illumina HiSeq 2000 测序平台,测序文库300bp,样本平均测序深度达到11X

三、      生物信息学分析
群体结构分析、选择清除分析、重要性状的全基因组关联分析

四、      研究结果
1)使用BWA软件将原始数据与参考基因组进行比对,使用samtools将sam格式转化为bam,使用picard软件去掉Duplicated reads。

2)SNP calling使用GATK和samtools,取两者结果的交集。对于GATK参数设置:-stand_call_conf 30。MAF设置为0.01。

3) Indel calling类似于SNP calling,使用GATK的UnifiedGenotyper程序,起参数设置为-glm INDEL,只考虑6bp范围内的缺失和插入。

4)SNP注释使用的软件为ANNOVAR。SNP被注释到内含子(overlap- ping with an intron)、外显子、基因间区,可变剪切位点(within 2 bp of a splicing junction)、5′UTRs 、3′UTRs,, upstream and downstream regions (within a 1 kb region upstream or downstream from the transcription start site).注释在外显子区域的SNP又分为同义和非同义突变。注释到外显子的Indel又分为移码突变和非移码突变。

5)群体结构分析中,PCA使用的是EIGENSOFT 4.2 的smartpca 程序,neighbor-joining tree 使用PHYLIP 3.68软件。结构分层使用FRAPPE,其中k值选取2到7.连锁不平衡分析使用plink软件。关联分析使用的GAPIT 分析软件。
技术分享




























以上是关于重复一篇文献的GWAS(二):用GEMMA跑GWAS的主要内容,如果未能解决你的问题,请参考以下文章

GWAS文献基于GWAS与群体进化分析挖掘大豆相关基因

常用GWAS统计方法和模型简介

GWA2-Perl的面向对象方法中数组或哈希列表参数传递问题

GWAS基本分析内容

GWAS研究可利用的数据库(持续更新)

GWAS之表型最优无偏预测(BLUP)与遗传力计算