使用tassel和haploview进行GWAS

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用tassel和haploview进行GWAS相关的知识,希望对你有一定的参考价值。

参考技术A 在植物的QTL定位最后阶段,会把QTL定位到一个很小的区间,这里面可能有几个候选基因,如何进行下一步的分析是个很头疼的问题,这其中一个办法就是使用自然群体进行关联分析(GWAS),得到群体中这些基因的DNA序列和promter序列,然后根据表型进行GWAS,下面简单的介绍一下相关的步骤:

根据自己的研究使用适当的方法提取DNA,常用的方法有SDS,SLS,CTAB法。

根据基因的长度将基因分为若干份,推荐一段为1500bp左右,因为下一步测序时使用的是一代测序技术,他的一个反应可以测800bp左右,这样正反两个方向就是1600bp,你还得保证两段有50--100bp的overlap,便于下一步的拼接。而设计引物直接在NCBI上使用 primer-blast 就可以了,一段序列一次最好设计两对引物,提高效率。

通常情况下使用PCR产物进行测序得到的序列就可以进行下一步的分析,因为你要扩增的是大量的材料,一两次的突变在之后的分析中可以过滤掉。

将多端的序列进行拼接,在拼接时可以提供一个参考序列一起进行拼接,保证拼接的准确性。

在去GWAS分析之前,需要对数据进行预处理,保证软件能够识别

打开tassel软件,点击file来打开表型数据和基因型数据,然后对基因型进行过滤filter-sites,设置一定的阈值,得到过滤后的数据进行PCA分析和kinship分析,将基因型数据、表型数据和PCA结果整合为一个结果,然后和kinship结果一起使用MLM模型进行分析,最后对结果画manhattan图,也可以使用R进行绘图。保存结果数据时,保存为plink格式的结果。

首先是就是对plink格式文件进行修改,将map文件的第一列和第三列删除,并把文件后缀map给为info,然后将ped文件的第二列复制到第一列,第3、4、5、6的数据改为0、0、0、1,将碱基缺失的(即文件中的 - 改为 N )。
打开haploview软件,以linkage format格式输入。

对结果的解读根据自己的实际情况进行分析。

命令行中tassel的使用
批量修改文件后缀名
LD衰减距离--haploview

haploview出现“more than two alleles”的解决方法

弹出“more than two alleles”的错误是因为ped文件中存在超过两个等位基因在一个SNP位点上,haploview连锁分析时默认为只有两个等位基因的,因此我们要去掉超过两位等位基因的SNP才能做连锁分析。

用到命令:--min-alleles 2 --max-alleles 2

具体如下 :

software/vcftools-vcftools-490848f/src/cpp/vcftools --vcf /to/your/pathway/your.vcf --min-alleles 2 --max-alleles 2 --plink-tped --out /to/your/pathway/file

“file”是指你想保存的文件命名。

以上是关于使用tassel和haploview进行GWAS的主要内容,如果未能解决你的问题,请参考以下文章

GWAS分析- P值计算过程 (七)

HaploView使用-OutofMemory

sh 将HRC gwas与现有GWAS进行比较

重复一篇文献的GWAS(二):用GEMMA跑GWAS

连锁不平衡(LD)分析

常用GWAS统计方法和模型简介