多表型大文件GWAS结果使用R语言提取汇总

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多表型大文件GWAS结果使用R语言提取汇总相关的知识，希望对你有一定的参考价值。

参考技术A 本脚本适用于GAPIT产生的GWAS结果：

汇总文件在tmp中，输出为csv即可。
提取的仅仅是显著位点（阈值自己调整）

R语言之数据汇总

我们在分析数据的时候，除了数据结构上的调整之外，很多时候也需要将数据进行汇总处理，比如最简单的计算行列均值、方差等，同时，数据汇总的结果也可以帮助进行一些实验设计和可视化显示，下面我们说一下如何使用R进行数据汇总处理。

一、简单的行列汇总
1.可以使用colMean()、colSums()对列计算均值和求和，使用rowSMean()、rowSums()对行计算均值和求和，这里我们可以使用[]或:选择数据的一部分，如果行或列没有设置名称，则会结果也会是一行没有命名的数字，如果数据中包含NA项，那么结果也会是NA，对此，可以设置na.rm=TRUE选项屏蔽NA。

2.apply()命令
该命令将一个汇总函数应用到所选择的数据框或矩阵的所有列，格式为：
apply(X,MARGIN,FUN,...)
其中X为所选择的数据区域，MARGIN=1为行，=2为列，FUN为汇总函数，也可以使用na.rm=TRUE来屏蔽NA项。

二、复杂的汇总函数
这里的复杂，指的是数据结构的复杂，比如数据中包含多个分类变量的情况。
1.rowsum()命令

该命令可计算数据框或矩阵的行的合计，它有一个group选项，用于选择分组变量，但是只能选择一个分组变量，对于多分组变量的数据不适用

2.tapply()命令
该命令可以作用于多分组变量情况下，但是用于汇总的向量只能选择一个，如：
> tapply(mf$Length,mfsite,FUN=sum)
第一个选项为汇总向量，第二个为分组向量，如果存在多个分组向量，可使用list()指定：
> tapply(mf$Length,list(mfsite1,mf$site2),FUN=sum)
如果指定的分组变量超过2个，则结果会被细分为多个二维表。

3.aggregate()命令
该命令的通用格式如下：

aggregate(X,by,FUN...)
X为要汇总的数据，by为分组变量，必须使用list()命令指定，FUN为汇总函数。

aggregate()命令更常使用的是公式语法：
aggregate(y~x,bu,FUN....)
其中Y为因变量也就是汇总变量，x为分组变量，这样做的好处是可以指定多个汇总变量和分组变量，如：
> aggregate(cbind(daisy,poa)~time,data=flwr,FUN=mean)：指定两个汇总变量
> aggregate(daisy~time*cutting,data=flwr,FUN=mean)：指定两个分组变量
> aggregate(cbind(daisy,poa)~time*cutting,data=flwr,FUN=mean)：指定两个分组变量和两个汇总变量。

aggregate()命令十分强大，不仅是因为它可以使用公式语法，指定多个汇总变量和分组变量，还有一个原因是其结果输出是一个表格，便于进一步选取和查看。

以上是关于多表型大文件GWAS结果使用R语言提取汇总的主要内容，如果未能解决你的问题，请参考以下文章

GWAS之表型最优无偏预测（BLUP)与遗传力计算

3.1 GWAS：表型鉴定与记录的基本原则和原始数据处理

GWAS分析（R包GAPIT）之二（数据准备）

GWAS分析- P值计算过程 (七)

GWAS基本概念2

GWAS研究可利用的数据库（持续更新）