GWAS分析(R包GAPIT)之二(数据准备)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GWAS分析(R包GAPIT)之二(数据准备)相关的知识,希望对你有一定的参考价值。

参考技术A 第一行是表头,第一列是个体号,其余每一列一个表型,Tab键分隔。

可以接受 standard HapMap format 或 numeric format。

第一种,Hapmap Format。

在基因型数据前有11列数据。尽管这11列数据都必须有,但读取的时候只读取第1、3、4列数据,其余数据可填充为NA。另,基因型数据可以是两个碱基形式的,也可以是单碱基形式的,如下表所示:

第二种,Numeric format。

这种格式的需要两个文件,一个指定SNP名称、染色体、和位置;一个指定所有个体在该位点的基因型。

无表头数据,表示亲缘关系的一个矩阵。

一个包含协变量的文件,包括群体结构之类的信息。第一列是个体名称,后面每一列都是协变量的值。

具体操作:

表型文件不多赘述,笔者重复一遍 numeric format 格式的基因型文件的生成方式。

上述操作会生成 3 个文件,分别是  xx_matrix.012、xx_matrix.012.pos、xx_matrix.012.indv。

SNP_INFORMATION的文件处理完成,接下来处理基因型文件,vcftools 直接生成的文件如下图所示:每一行表示一个个体,每一列表示一个位点,第一列是个体名称。

接下来,首先替换个体名称,利用 xx_matrix.012.indv 文件。

然后给每一列变量增加名称:我的操作是先生成变量名称的文件。

以上,生成计算所需基因型文件。

相关链接:

GWAS分析(R包GAPIT)之一(相关包的安装)

GWAS分析(R包GAPIT)之二(数据准备)

GWAS分析(R包GAPIT)之三(计算运行)

一行命令学会全基因组关联分析(GWAS)的meta分析

为什么需要做meta分析

群体分层是GWAS研究中一个比较常见的假阳性来源.

也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点。

当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析。

1.如何判断群体是否分层

先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA

随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体分层了,需要独立做关联分析,最后再做meta分析

2.如何做meta分析

这里推荐metal软件做meta分析,理由是简单、易上手。

2.1 下载metal

进入下载链接

metal 提供了三个版本的,分别是Linux,macOS, Windows系统;请自行选择。

这里提供Linux系统的命令:

wget http://csg.sph.umich.edu/abecasis/metal/download/Linux-metal.tar.gz

2.2 解压metal

解压用到的命令如下:

tar -zxvf Linux-metal.tar.gz

2.3 meta分析前的数据准备

假定需要进行meta分析的文档分别为DGI_three_regions.txtmagic_SARDINIA.tbl

DGI_three_regions.txt 的内容如下:

技术图片

magic_SARDINIA.tbl 的内容如下:

技术图片

那么在meta分析前需要准备一个metal.txt文档,metal.txt文档的内容如下:

技术图片

解释一下,这个txt文档是什么意思。

这一部分指的是MARKER对应的是DGI_three_regions.txt文档的SNP列名;

WEIGHT对应的是DGI_three_regions.txt文档的SNP列名;

其他的以此类推;

第二个文件的准备方法也是一样的。

2.4 meta分析

很简单的一个命令行就搞定了

metal metal.txt

2.5 结果解读

meta分析后会生成两个文件,分别是 METAANALYSIS1.TBL 和 METAANALYSIS1.TBL.info

METAANALYSIS1.TBL 是meta分析的结果文档;

内容如下:

技术图片

P-value 即为meta后的关联分析P值;

METAANALYSIS1.TBL.info 是meta分析的说明文档,比如 Marker 指的是什么。

其内容如下:

技术图片

以上是关于GWAS分析(R包GAPIT)之二(数据准备)的主要内容,如果未能解决你的问题,请参考以下文章

GWAS分析- P值计算过程 (七)

全基因组关联分析(Genome-Wide Association Study,GWAS)流程

2018-10-25 GWAS实战(一) qqman绘制曼哈顿图

使用R做文本挖掘学习笔记:准备工作

使用Tensorflow搭建回归预测模型之二:数据准备与预处理

GWAS之表型最优无偏预测(BLUP)与遗传力计算