GO和Pathway富集分析的背景基因集

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GO和Pathway富集分析的背景基因集相关的知识,希望对你有一定的参考价值。

参考技术A

功能(GO)或者通路(Pathway)富集分析时,都会涉及到 Background; 做分析时,分析工具会提供一些数据供使用者选择或者使用自定义的gene list。

例如,在RNAseq或Microarray;有时候工具提供的 Background时物种所有的基因,现在也没有同一的标准用来自己构建Background。

# Background 构造方法:

# 两个概念+例子
Background frequency:Background 基因集包含注释到某个GO term的基因数目。
sample frequency:需要分析的gene 集包含注释到某个GO term的基因数目。
一个例子,现有S. cerevisiae(现注释有6442个基因)的10个基因需要做富集分析,如果这个10基因有5个基因注释到了GO term-DNA修复(S. cerevisiae有100个基因注释到DNA修复 );那么现在DNA修复的样本频率(sample frequency)是5/10;背景频率(background frequency)就是100/6442。

例子中,10个基因是确定的;使用全基因组注释的基因是6442;若是检测中只检测到5000个基因,那么Background gene集选用5000,背景频率也会变化(100 个DNA修复相关的基因都被检测到了),在统计检验时P值大小也会变化。除此之外,100 个DNA修复相关的基因也可能不会全部都在检测结果中。

GO term或Pathway 是否在实验结果的差异基因集中富集常使用的统计学检验基于超几何、卡方或二项式分布。基于基因组中基因注释到某个GO term的概率不变,查看差异基因集有多少基因可以注释到同一个GO term, 从而得到P值。

# Background 构造方法讨论

参考:

GO富集结果整体可视化

参考技术A   GO (Gene Ontology )是一个基因功能的国际标准分类体系。意在从分子功能 (Molecular Function)、生物过程 (Biological Process)、和细胞组成 (Cellular Component) 三个层面对基因和蛋白质功能进行限定和描述,建立一个适用于各种物种并能随着研究不断深入而更新的语言词汇标准。
  GO富集分析已经算是很常规的分析内容,可以很方便地将分析得到的基因集归类到不同的GO条目,从而让研究者可以轻松地得知这些基因都参与哪些生物过程。GO分析的操作这里就不再赘述了,网上有很多相关的帖子,基本上常规的物种用clusterProfiler包就可以解决了。今天我想来谈谈如何可视化GO分析的结果。对于GO富集结果的可视化,最常见的就是用条形图和气泡图来展示部分关注的条目。

  上面两种展现形式最为常见,可以很好地展示关注的条目。我们都知道有时候GO富集的条目会很多,如果想整体预览一下,有没有什么方法可以展示所有条目都涉及哪些功能呢?答案是肯定的。下面就来介绍一下simplifyEnrichment包是如何展示GO富集结果的。这里用该包中数据做一个演示。

结果如下图:

  结果看起来还是有点高大上的感觉,从图中可以看出496个GO条目根据条目名称的语意相似性被分成9个大类,每个大类右边有注释条,标明了每个类中涉及的条目关键字,有点类似词云的感觉。

  该包使用起来很简单,虽然不能准确的展示每个GO条目,但可以从整体上概览GO条目都涉及哪些方面,对于后续筛选还是很有帮助的。该包还有更为细节的用法,这里就不再赘述了,感兴趣的可以自己去摸索。按照惯例最后附上官方说明链接: Simplify Functional Enrichment Results 和 Word Cloud Annotation 。

以上是关于GO和Pathway富集分析的背景基因集的主要内容,如果未能解决你的问题,请参考以下文章

用topGO进行GO富集分析

基因集富集分析

RNA-Seq(9):使用GSEA做GO/KEGG富集分析

一些GO及KEGG分析的知识

单细胞之富集分析-3:GO和KEGG富集分析及绘图

GO富集结果整体可视化