RNA-Seq分析RPKM, FPKM, TPM, 傻傻分不清楚？

Posted 2023-04-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RNA-Seq分析RPKM, FPKM, TPM, 傻傻分不清楚？相关的知识，希望对你有一定的参考价值。

参考技术A

在RNA-Seq的分析中，对基因或转录本的read counts数目进行标准化（normalization）是一个极其重要的步骤，因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。

很容易理解，一个基因越长，测序深度越高，落在其内部的read counts数目就会相对越多。

当我们进行基因差异表达的分析时，往往是在多个样本中比较不同基因的表达量， 如果不进行数据标准化，比较结果是没有意义的 。

因此，我们需要标准化的两个关键因素就是基因长度和测序深度，常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作为标准化数值。

那么，这三者计算原理是什么，有何区别呢？

下面做详细介绍

为了更清楚的展示计算过程，我们用三个样本的4个基因的read counts矩阵做例子（来源于YouTube）。如表1：

大家可以清楚地看到，样本3的4个基因read counts数目明显多于其他两个样本，说明其测序深度较高，基因B的长度的基因A的两倍，也使得其read counts在三个样本中都高于A。

接下来我们要做就是对这个矩阵进行标准化，分别计算RPKM, FPKM和TPM, 请睁大你的眼睛（为了使数值可读性更好，下面的计算中我们用10代表million）。

我们先来说说RPKM怎么算。

第一步先将测序深度标准化，计算方法很简单，先分别计算出每个样本的总reads数（这里以10为单位），然后将表中数据分别除以总reads数即可，这样就得到了reads per million. 如下表2：

第二步即是基因长度的标准化了。将表2的read per million直接除以基因长度即可，如表3：

到这里，我们即得到了传说中的RPKM。

FPKM和RPKM的定义是相同的，唯一的区别是FPKM适用于双端测序文库，而RPKM适用于单端测序文库。FPKM会将配对比对到一个片段（fragment）上的两个reads计算一次，接下来的计算过程跟RPKM一样。

下面，终于轮到TPM登场了。虽然同样是标准化测序深度和基因长度，TPM的不同在于它的处理顺序是不同的。即先考虑基因长度，再是测序深度。我们仍以表1的那个例子来说明TPM是计算过程。

第一步直接除以基因长度，得到reads per kilobase，如表4：

第二步标准化测序深度时，总的reads数要用第一步中除过基因长度的数值。即第一样本除以15，第二个样本除以20.25，第三个样本除以45.1 （别忘了我们的单位是10哦）。表5就是你们想要的TPM了。

下面，是考验你们数学功底的时候了，有没有看出来TPM分分钟完虐FPKM/RPKM？其实，只要我们在表3和表5下面多加一行你就能很轻松地看到区别了。

我们看到每个样本的TPM的总和是相同的， 这就意味着****TPM****数值能体现出比对上某个基因的****reads****的比例 ，使得该数值可以直接进行样本间的比较。

看到这里，相信大家已经完全理解了RNA-Seq数据标准化的流程了。

虽然现在有很多计算差异表达的软件是直接支持****read counts****作为输入，并且自已完成标准化过程 ，如DESeq2，但作为生信人，知道这些中间量的计算过程还是很有必要的。
转自 http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml

标准化之CPM/RPKM/FPKM/TPM

参考技术A

- 差异分析 时，需考虑实验设计（样本组成）和测序原理向（测序深度、基因长度、RNA 组成）
- 转录组下游分析 时，采用DESeq2、edgeR和limma，需要的输入数据类型是counts（正整数）

-RPKM：以每个Read为一个单位，单端测序常用
-FPKM：以Fragment一个单位，主要在双端测序
（这两个很相似，都是先标准化测序深度，再标准化基因长度）

-目前推荐使用TPM
（TPM先标准化基因长度，再标准化测序深度）
【标准化后每个样本的total TPM是相同的，可以更易看出what proportion of reads mapped to what in each sample；此外，RNA-seq数据是用于比较reads的相对量，因此，TPM更为合理】

- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的，log2转化后使数据呈 正态分布 （正态分布是大部分统计学分析方法需要的数据类型）

以上是关于RNA-Seq分析RPKM, FPKM, TPM, 傻傻分不清楚？的主要内容，如果未能解决你的问题，请参考以下文章

RNA-Seq分析RPKM, FPKM, TPM, 计算对比

生物信息RPKM, FPKM和TPM

RNA_Seq分析中的标准化（reads_count,FPKM, RPKM, TPM)

RPKM, FPKM 和 TPM

TPMread countsRPKM/FPKM你选对了吗？

标准化之CPM/RPKM/FPKM/TPM