非模式生物GO、KEGG富集分析

Posted 2023-04-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了非模式生物GO、KEGG富集分析相关的知识，希望对你有一定的参考价值。

参考技术A GO、KEGG富集分析是我们做生信分析较为常用的部分，它可以将基因与功能相联系起来。
GO指的是Gene Ontology，是基因功能国际标准分类体系。目的在于建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO分为分子功能（Molecular Function)(MF)、生物过程（Biological Process）(BP)、和细胞组成（Cellular Component）(CC)三个部分。
KEGG指的是京都基因与基因组百科全书，通常我们使用KEGG中的pathway模块，将基因映射到某些通路上，了解基因参与生物体中的代谢过程等。
对于模式生物，GO和KEGG富集分析实现起来比较容易，对于非模式生物来说还是需要花点时间和精力。对于模式生物的GO和KEGG富集分析，网上教程案例挺多的。对于非模式生物，以小麦为例，进行下面一些基本的富集分析。

做富集分析，我们需要了解一下几个概念。
1、前景基因：指的是我们所要进行富集的基因，一般是基因的ID
2、背景基因：指的是前景基因在某个基因集合进行富集，这个基因集合就是背景基因

3、描述信息：每个GO的Term的属性，或者是每个KO号或者map号的属性。

我们具备前景基因，背景基因以及描述信息我们就可以做富集分析啦。

1、前景基因:这是必须的啦。有时候需要进行ID转换，但是个人觉得ID转换根据需要来就行。如果前景基因里面的基因ID是包括在背景基因里面，那就需要进行转换。如果前景基因在是新的基因或者在背景基因没有被注释到的，就不用进行ID转换。下面这个就是融合基因，在背景基因里面没有注释到的，那么我就不要转换。

2、背景基因：一个基因可能具备多个GO term，一个基因也可能参与多个通路，与之相对应的有多个map号
这个案例中背景基因文件构建思路如下图

3、描述文件

跑完之后就会得到一些结果：

生成一些简单的气泡图，条形图，GO二级分类图

GO、KEGG富集分析（一）有参情况

参考技术A

对基因的描述一般从三个层面进行：

这三个层面具体是指：

得到GO注释

做GO分析的思路：

比如，在疾病研究的时候，进行药物治疗之后某些基因的表达量明显的发生了变化，拿这些基因去做GO分析发现在Biological process过程当中集中在RNA修饰上，然后在此基础上继续进行挖掘。这个例子就是想启示大家拿到差异表达基因DEG只是一个开始，接下来就应该去做GO注释，之后需要进行一个分析看这些注释主要集中在哪个地方。假如我们有100个差异表达基因其中有99个都集中在细胞核里，那我们通过GO分析就得到了一个显著的分布。

GO富集分析原理：
有一个term注释了100个差异表达基因参与了哪个过程，注释完之后（模式生物都有现成的注释包，不用我们自己注释），计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。

clusterProfiler是一个功能强大的R包，同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀，本章主要介绍利用这个R包来进行Gene Ontology的富集分析。
进行GO分析时，需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包，包含了这些物种的GO注释信息

对于以上19个物种，只需要安装对应的org包，clusterProfile就会自动从中获取GO注释信息，我们只需要差异基因的列表就可以了，使用起来非常方便。

1.1 准备输入数据
待分析的数据就是一串基因名称了，可以是ensembl id、entrze id或者symbol id等类型都可以。把基因名称以一列的形式排开，放在一个文本文件中（例如命名“gene.txt”）。Excel中查看，就是如下示例这种样式。

1.3 GO富集分析
加载了注释库之后，读取基因列表文件，并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析。

读取基因列表文件，并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析。

此外，clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果，具有极大的便利。

参考：
https://www.jianshu.com/p/47b5ea646932?utm_source=desktop&utm_medium=timeline

以上是关于非模式生物GO、KEGG富集分析的主要内容，如果未能解决你的问题，请参考以下文章

GO富集结果整体可视化

怎么做基于KEGG的生物通路富集分析

GO/KEGG功能富集分析及气泡图

如何从众多go生物学分析中选取出需要的生物过程

GO和KEGG富集倍数（Fold Enrichment）如何计算

GO富集分析简单介绍