GO和KEGG富集倍数（Fold Enrichment）如何计算

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GO和KEGG富集倍数（Fold Enrichment）如何计算相关的知识，希望对你有一定的参考价值。

参考技术A

前面我们简单介绍过 ggplot2画KEGG富集柱形图，其实GO富集结果的展示相对于KEGG来说要复杂一点点，因为GO又进一步可以划分成三个类。

BP:biological process,生物学过程。

MF:molecular function,分子功能。

CC:cellular component, 细胞成分。

因此在画图的时候，我们需要将这三类给区分开来。下面分别用了三种不同的方式来展示GO富集分析的结果。

下面我们结合富集分析的结果表，来分别解释一下这三张图中横坐标的具体含义。

首先来看看这张表中每一列所代表的含义

这张表里面没有提到富集倍数（fold enrichment）

那么我们就很容易理解上面三张图的横坐标了，分别为Count，GeneRatio和Fold enrichment。

那么问题来了，既然这张表里面没有Fold enrichment，那么我们如何计算富集倍数呢？

下面我给大家介绍三种方法来计算Fold enrichment，任君挑选

1.利用 eval 直接做计算

2.利用 strsplit 按/分割成分子和分母

3. 利用 gsub 替换，得到分子和分母

参看下面这篇文章获取获取KEGG-enrich.csv

GO和KEGG富集倍数（Fold Enrichment）如何计算

非模式生物GO、KEGG富集分析

参考技术A GO、KEGG富集分析是我们做生信分析较为常用的部分，它可以将基因与功能相联系起来。
GO指的是Gene Ontology，是基因功能国际标准分类体系。目的在于建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO分为分子功能（Molecular Function)(MF)、生物过程（Biological Process）(BP)、和细胞组成（Cellular Component）(CC)三个部分。
KEGG指的是京都基因与基因组百科全书，通常我们使用KEGG中的pathway模块，将基因映射到某些通路上，了解基因参与生物体中的代谢过程等。
对于模式生物，GO和KEGG富集分析实现起来比较容易，对于非模式生物来说还是需要花点时间和精力。对于模式生物的GO和KEGG富集分析，网上教程案例挺多的。对于非模式生物，以小麦为例，进行下面一些基本的富集分析。

做富集分析，我们需要了解一下几个概念。
1、前景基因：指的是我们所要进行富集的基因，一般是基因的ID
2、背景基因：指的是前景基因在某个基因集合进行富集，这个基因集合就是背景基因

3、描述信息：每个GO的Term的属性，或者是每个KO号或者map号的属性。

我们具备前景基因，背景基因以及描述信息我们就可以做富集分析啦。

1、前景基因:这是必须的啦。有时候需要进行ID转换，但是个人觉得ID转换根据需要来就行。如果前景基因里面的基因ID是包括在背景基因里面，那就需要进行转换。如果前景基因在是新的基因或者在背景基因没有被注释到的，就不用进行ID转换。下面这个就是融合基因，在背景基因里面没有注释到的，那么我就不要转换。

2、背景基因：一个基因可能具备多个GO term，一个基因也可能参与多个通路，与之相对应的有多个map号
这个案例中背景基因文件构建思路如下图

3、描述文件

跑完之后就会得到一些结果：

生成一些简单的气泡图，条形图，GO二级分类图

以上是关于GO和KEGG富集倍数（Fold Enrichment）如何计算的主要内容，如果未能解决你的问题，请参考以下文章

go，kegg，gsea的取舍（一）

GO，KEGG，DO 富集分析

单细胞之富集分析-3：GO和KEGG富集分析及绘图

【R语言】解决GO富集分析绘图，标签重叠问题

GO、KEGG富集分析（一）有参情况

RclusterProfiler的GO/KEGG富集分析用法小结