用topGO进行GO富集分析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用topGO进行GO富集分析相关的知识,希望对你有一定的参考价值。
参考技术A topGO是一个半自动的GO富集包,该包的主要优势是集中了好几种统计检验的方法,目前支持的统计方法如下:BiocManager::install('topGO')
需要R的版本为>=2.10,但biocmanager安装需要的R版本更高,现在应该是3.6。
富集工作主要包括3个步骤:
1、准备相关数据;
2、进行富集统计检验;
3、分析结果。
所以最重要的工作就是数据的准备。需要的数据包括包含全部geneID(背景基因名,一般是研究物种的全部基因)的文件,需要进行富集分析的geneID(差异表达基因或感兴趣的基因)文件,还有gene-to-GO的注释文件。
物种全部的geneID和差异基因ID比较容易获得,比较费劲的是gene-to-GO文件。
topGO提供了一些函数来帮助我们自动获取注释信息:
annFUN.db :用于Bioconductor上有注释包的物种的芯片数据;
annFUN.org :用于Bioconductor上有“org.XX.XX”注释包的数据;
annFUN.gene2GO :用户自己提供gene-to-GO文件;
annFUN.GO2gene :用户提供的GO-to-gene文件也可以;
annFUN.file :读取有gene2GO或GO2gene的txt文件。
一般Bioconductor提供的注释物种并不多,我的方法主要是用AnnotationHub的select函数或biomaRt的getBM函数来获取,具体操作见: https://github.com/xianyu426/gene_annotation
自己提供gene2GO文件时,格式应该为:
gene_ID<TAB>GO_ID1, GO_ID2, GO_ID3, ....
这样就定义了一个topGOdata对象。
结果可以作气泡富集图。
showSigOfNodes(GOdata, score(resultWeight), firstSigNodes = 10, useInfo = "all")
GO和Pathway富集分析的背景基因集
参考技术A功能(GO)或者通路(Pathway)富集分析时,都会涉及到 Background; 做分析时,分析工具会提供一些数据供使用者选择或者使用自定义的gene list。
例如,在RNAseq或Microarray;有时候工具提供的 Background时物种所有的基因,现在也没有同一的标准用来自己构建Background。
# Background 构造方法:
# 两个概念+例子
Background frequency:Background 基因集包含注释到某个GO term的基因数目。
sample frequency:需要分析的gene 集包含注释到某个GO term的基因数目。
一个例子,现有S. cerevisiae(现注释有6442个基因)的10个基因需要做富集分析,如果这个10基因有5个基因注释到了GO term-DNA修复(S. cerevisiae有100个基因注释到DNA修复 );那么现在DNA修复的样本频率(sample frequency)是5/10;背景频率(background frequency)就是100/6442。
例子中,10个基因是确定的;使用全基因组注释的基因是6442;若是检测中只检测到5000个基因,那么Background gene集选用5000,背景频率也会变化(100 个DNA修复相关的基因都被检测到了),在统计检验时P值大小也会变化。除此之外,100 个DNA修复相关的基因也可能不会全部都在检测结果中。
GO term或Pathway 是否在实验结果的差异基因集中富集常使用的统计学检验基于超几何、卡方或二项式分布。基于基因组中基因注释到某个GO term的概率不变,查看差异基因集有多少基因可以注释到同一个GO term, 从而得到P值。
# Background 构造方法讨论
参考:
以上是关于用topGO进行GO富集分析的主要内容,如果未能解决你的问题,请参考以下文章