怎么分析关注的功能基因集在转录组结果中表现如何？

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎么分析关注的功能基因集在转录组结果中表现如何？相关的知识，希望对你有一定的参考价值。

参考技术A

拿到转录组数据之后，很多人最关心的恐怕就是差异基因的富集分析了，它阐明了实验中样本差异在基因功能上的体现。

但有时候，我们在设计实验的时候就已经对某些特定功能的基因集特别关注了，那么如何分析这些基因集在实验不同比较组之间的表达情况呢？今天就给大家推荐个相关的分析方法。

基因集富集分析 （ GSEA ）

GSEA(Gene Set Enrichment Analysis)是麻省理工和哈佛大学的broad institute 研究团队开发的一个针对基因表达数据进行分析的工具。

GSEA在对基因表达数据分析时，首先确定分析的目的，即选择MSigDB中的一个或多个功能基因集进行分析。然后基于基因表达数据与表型的关联度（也可以理解为表达量的变化）的大小进行排序，进而判断每个基因集内的基因是否富集于表型相关度排序后基因列表的上部或下部，从而判断此基因集内基因的协同变化对表型变化的影响。

GSEA的优势

常规的基因富集分析主要关注差异基因，也就是对差异基因进行功能富集分析，例如GO和KEGG，这容易遗漏部分差异表达不显著却有重要生物学意义的基因，忽略一些基因的生物特性、基因调控网络之间的关系及基因功能等有价值的信息。

GSEA 方法关注的不是有限几个发生显著改变的差异基因，而是关注检测基因的表达在定义的功能分组中是否有共同的表达趋势，是从另一个角度来解读生物学信息，以阐述其中的生物学意义。

GSEA结果讲解

GSEA分析结果最常见的是下图：

1、图最上面部分展示的是富集分数（ES, enrichment score）值计算过程，从左至右每到一个基因，计算出一个ES值，连成线。在最左侧或最右侧有一个特别明显的峰值就是基因集表型上的ES值。图中间部分每一条线代表基因集中的一个基因，及其在基因列表中的排序位置。

2、最下面部分展示的是基因与表型关联的矩阵，红色为与第一个表型(MUT)正相关，在MUT中表达高，蓝色与第二个表型(WT)正相关，在WT中表达高。

3、Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值，则是峰左侧的基因；若富集得分为负值，则是峰右侧的基因。

4、FDR GSEA默认提供所有的分析结果，并且设定FDR<0.25为可信的富集，最可能获得有功能研究价值的结果。但如果样品数目少，而且选择了gene_set作为Permumation type则需要使用更为严格的标准，比如FDR<0.05。

点击查看原文

Bioinformatics

转录组表达定量- Read count？CPM? RPKM? FPKM?

参考技术A

1.Read count

数值概念：比对到某基因的reads数。

用途：用于换算CPM、RPKM、FPRM等后续其他指标；同时作为基因异分析软件（如DESeq和edgeR）的输入值，也就是说差异分析的结果来自于 read count的计算，而非CPM、RPKM、 FPKM，表达定量的结果主要用于主成分分析、层次聚类分析。

2.CPM：Counts per million

数值概念：计算公式：CPM= A/mapped reads*1000000 A为比对到某基因的reads数（read count）。

用途：在某些情况下，只想了解每个基因被覆盖到的相对reads数，而不希望对其做长度校正，就会使用这个指标。

CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较，则不得不考虑基因长度的不同。如果进一步做长度的均一化，就得到了下面的RPKM、FPKM。

3.RPKM：Reads Per Kilobaseof exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)

数值概念：计算公式：RPKM=(1000000*A)/( mapped reads *gene length/1000)

设A 为比对到某基因的 reads数（read count）。

RPKM法能消除基因长度和测序量差异对计算基因表达的影响，计算得到的基因表达量可直接用于比较不同样品间的基因表达差异和不同基因间表达高低的比较。

用途：用于与基因表达量相关的后期分析。基因表达趋势分析、WGCNA共表达网络构建，热图绘制等都使用。

4. FPKM : Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)

FPKM意义与RPKM极为相近。二者区别仅在于，Fragment与Read。RPKM的诞生是针对早期的SE测序，FPKM则是在PE测序上对RPKM的校正。只要明确Reads和Fragments的区别，RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads，Fragments则是指每一段用于测序的核酸片段【双端序列即使丢弃1端reads，让按照1个Fragments计算】。

以上是关于怎么分析关注的功能基因集在转录组结果中表现如何？的主要内容，如果未能解决你的问题，请参考以下文章