WGS全基因组分析VCFTOOLS使用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了WGS全基因组分析VCFTOOLS使用相关的知识,希望对你有一定的参考价值。

参考技术A

vcftools为专门处理vcf/bcf文件而生,此工具能处理VCF数据包括:过滤(filter), ;变异位点的基本统计;数据格式的转换;多个vcf文件的比较(compare files);集合运算。

目前常用版本v0.1.16。官方网站[ https://vcftools.github.io/index.html]

vcftools [ --vcf/gzvcf/bcf FILE ] [ --out OUTPUT PREFIX ] [ FILTERING OPTIONS ] [ OUTPUT OPTIONS ]

一行命令学会全基因组关联分析(GWAS)的meta分析

为什么需要做meta分析

群体分层是GWAS研究中一个比较常见的假阳性来源.

也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点。

当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析。

1.如何判断群体是否分层

先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA

随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体分层了,需要独立做关联分析,最后再做meta分析

2.如何做meta分析

这里推荐metal软件做meta分析,理由是简单、易上手。

2.1 下载metal

进入下载链接

metal 提供了三个版本的,分别是Linux,macOS, Windows系统;请自行选择。

这里提供Linux系统的命令:

wget http://csg.sph.umich.edu/abecasis/metal/download/Linux-metal.tar.gz

2.2 解压metal

解压用到的命令如下:

tar -zxvf Linux-metal.tar.gz

2.3 meta分析前的数据准备

假定需要进行meta分析的文档分别为DGI_three_regions.txtmagic_SARDINIA.tbl

DGI_three_regions.txt 的内容如下:

技术图片

magic_SARDINIA.tbl 的内容如下:

技术图片

那么在meta分析前需要准备一个metal.txt文档,metal.txt文档的内容如下:

技术图片

解释一下,这个txt文档是什么意思。

这一部分指的是MARKER对应的是DGI_three_regions.txt文档的SNP列名;

WEIGHT对应的是DGI_three_regions.txt文档的SNP列名;

其他的以此类推;

第二个文件的准备方法也是一样的。

2.4 meta分析

很简单的一个命令行就搞定了

metal metal.txt

2.5 结果解读

meta分析后会生成两个文件,分别是 METAANALYSIS1.TBL 和 METAANALYSIS1.TBL.info

METAANALYSIS1.TBL 是meta分析的结果文档;

内容如下:

技术图片

P-value 即为meta后的关联分析P值;

METAANALYSIS1.TBL.info 是meta分析的说明文档,比如 Marker 指的是什么。

其内容如下:

技术图片

以上是关于WGS全基因组分析VCFTOOLS使用的主要内容,如果未能解决你的问题,请参考以下文章

2015 年,我和华大基因立下一个小目标……

xgene:WGS,突变与癌,RNA-seq,WES

DNA和RNA测序之间有什么区别?

haploview出现“more than two alleles”的解决方法

群体遗传分析方法:LD,FST,eQTL

全基因组关联分析(GWAS)的计算原理