GO富集分析简单介绍

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GO富集分析简单介绍相关的知识,希望对你有一定的参考价值。

参考技术A GO富集分析原理简介和DAVID的GO富集分析方法操作演示

    寻找差异表达的基因并挖掘它们可能的功能,是我们进行RNA测序的最主要目的。很明显,这些差异的基因必然与功能改变密切相关,例如,比较患病个体与正常个体的组织表达谱,不难想到这些表达显著改变的基因参与了疾病或免疫相关的生物学过程、信号通路等,基因表达水平的失调与疾病肯定密不可分。

    我们平时看RNA-seq相关的文献时,文章中在鉴定了差异表达的基因后,大都会在随后承接几句关于这些失调基因所涉及通路的描述。例如,讨论这些差异基因主要映射到哪些GO或KEGG分类条目中,以说明基因表达的改变会导致哪些调控途径原有功能失调,进而与表型联系起来。通常称这种分析为GO、KEGG富集分析。

    本节视频教程,就让我们带大家学习什么是GO、KEGG富集分析,它们的主要原理是什么,并简单展示使用DAVID进行差异表达基因GO富集分析的操作过程。

视频教程:

附:bilibili超清视频链接: https://www.bilibili.com/video/BV1ca4y1v7Mw/

GO和Pathway富集分析的背景基因集

参考技术A

功能(GO)或者通路(Pathway)富集分析时,都会涉及到 Background; 做分析时,分析工具会提供一些数据供使用者选择或者使用自定义的gene list。

例如,在RNAseq或Microarray;有时候工具提供的 Background时物种所有的基因,现在也没有同一的标准用来自己构建Background。

# Background 构造方法:

# 两个概念+例子
Background frequency:Background 基因集包含注释到某个GO term的基因数目。
sample frequency:需要分析的gene 集包含注释到某个GO term的基因数目。
一个例子,现有S. cerevisiae(现注释有6442个基因)的10个基因需要做富集分析,如果这个10基因有5个基因注释到了GO term-DNA修复(S. cerevisiae有100个基因注释到DNA修复 );那么现在DNA修复的样本频率(sample frequency)是5/10;背景频率(background frequency)就是100/6442。

例子中,10个基因是确定的;使用全基因组注释的基因是6442;若是检测中只检测到5000个基因,那么Background gene集选用5000,背景频率也会变化(100 个DNA修复相关的基因都被检测到了),在统计检验时P值大小也会变化。除此之外,100 个DNA修复相关的基因也可能不会全部都在检测结果中。

GO term或Pathway 是否在实验结果的差异基因集中富集常使用的统计学检验基于超几何、卡方或二项式分布。基于基因组中基因注释到某个GO term的概率不变,查看差异基因集有多少基因可以注释到同一个GO term, 从而得到P值。

# Background 构造方法讨论

参考:

以上是关于GO富集分析简单介绍的主要内容,如果未能解决你的问题,请参考以下文章

【R语言】解决GO富集分析绘图,标签重叠问题

GO和KEGG富集倍数(Fold Enrichment)如何计算

GO,KEGG,DO 富集分析

分析 GO 富集分析

GO富集分析

单细胞之富集分析-3:GO和KEGG富集分析及绘图