分析 GO 富集分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分析 GO 富集分析相关的知识,希望对你有一定的参考价值。

参考技术A

从研一来到组里,一直听到 GO 富集分析几个字。直到现在,研二基本结束了,我都没做过,也不会做。
有一个大概的认识,就是,自己的基因集中某种功能基因的占比要高于这种功能的基因在所有基因中的占比。有很多人解释得更清楚,比如 GO分析学习笔记 、徐洲更的 基因表达分析(中)- 富集分析 、 转录组入门(8): 富集分析 。

我并不研究模式植物,而且已有的 OrgDb 可能存在版本问题。所以 2.2 或 2.3 是待选方法。 但是!但是! 在是否需要构建以及如何构建 OrgDb 上,我又有了疑问。

在是否需要构建的问题上,我看到徐洲更在 功能注释后如何做富集分析 中提到 “你不需要构建Orgdb,因为Orgdb的用途是进行基因编号和GO/KEGG的转换。你可以直接导入基因号和GO/KEGG编号的对应关系到R里面,然后用clusterProfiler进行数据分析”

在如何构建的问题上,网上也有许多文章进行了介绍。构建 OrgDb 时,需要 gene_info 和 gene2go 。 gene_info 需要有两列信息 GID 和 Gene_name 。 gene2go 需要三列信息 GID 、 GO 和 EVIDENCE 。
在众多博客中,都是用 EggNOG 注释所研究物种的蛋白质序列,再从注释结果中提取信息。我在重复的过程中,发现了其中的不一致,这个 Gene_name 到底是什么? 详细回顾非模式物种注释构建过程 中选择的是 seed_ortholog 列; 构建自己物种的orgDb 中选择的是 eggNOG annot 列; 使用AnnotationForge包轻松构建非模式物种Orgdb包 中选择的是不知道哪里冒出来的 X.4 列;还有选择 Prefered_name ...... 有些列甚至不同版本的 EggNOG 结果可能都不存在/不一致。

我的问题是, Gene_name 选择什么重要吗?这个东西是为 OrgDb 的其他功能服务的?如果只是进行 GO 富集分析,这个并不影响? 由于我的不求甚解,没有对比结果,也没有深究 OrgDb 到底还能干什么。也许研四快结束的时候,就弄清楚了。还有,因为没有其他证据,大家都把 EVIDENCE 定义为“IEA”。

GO,KEGG,DO 富集分析

参考技术A 基因“本体论” 对事物的分类描述,对基因的分类描述
对基因的描述

KEGG enrichment analysis?(代谢通路富集分析)
DO (disease)enrichment analysis? (疾病富集分析)[一般是临床使用]

以上是关于分析 GO 富集分析的主要内容,如果未能解决你的问题,请参考以下文章

单细胞之富集分析-3:GO和KEGG富集分析及绘图

GO富集分析

【R语言】解决GO富集分析绘图,标签重叠问题

GO富集分析简单介绍

用topGO进行GO富集分析

GO、KEGG富集分析(一)有参情况