RPKM、FPKM、TPM计算公式

Posted 2023-04-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RPKM、FPKM、TPM计算公式相关的知识，希望对你有一定的参考价值。

参考技术A

基因表达量的衡量指标有：RPKM、FPKM、TPM。

RPKM： Reads Per Kilobase Million=Reads Per Kilobase Per Million Reads，即每一百万条Reads中，对基因的每1000个Base而言，比对到该1000个base的Reads数。

FPKM： Fragments Per Kilobase Million=Fragments Per Kilobase Per Million Reads。

FPKM与RPKM的区别仅在于，Fragment 与 Read。
RPKM的诞生是针对早期的单端测序，FPKM则是在双端测序上对RPKM的校正。
Reads即是指下机后fastq数据中的每一条Reads，Fragments则是指每一段用于测序的核酸片段。
在单端测序中，一个Fragments只测一条Reads，所以，Reads数与Fragments数目相等；
在双端测序中，一个Fragments测两端，会得到2条Reads，但由于后期质量或比对的过滤，有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。
总之，对某一对Reads而言，这2条Reads只能算一个Fragments，所以，Fragment的最终数目是Reads的1到2倍之间。

TPM： Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)。
TPM的计算分3步：
step1：根据基因/转录本长度校正count值；假设某基因count值为R1，则校正后count值为：
R1/(L1/1000) ： L1为该基因的长度；为什么要除以1000，是因为基因长度要按照kb计算
step2：计算total 校正后count值；即所有基因的校正后count值总和，Rtotal；再除以1百万(1000000)。
step3：计算TPM；TPM结果为：

来自： https://www.jianshu.com/p/fb113ca65a46

标准化之CPM/RPKM/FPKM/TPM

参考技术A

- 差异分析 时，需考虑实验设计（样本组成）和测序原理向（测序深度、基因长度、RNA 组成）
- 转录组下游分析 时，采用DESeq2、edgeR和limma，需要的输入数据类型是counts（正整数）

-RPKM：以每个Read为一个单位，单端测序常用
-FPKM：以Fragment一个单位，主要在双端测序
（这两个很相似，都是先标准化测序深度，再标准化基因长度）

-目前推荐使用TPM
（TPM先标准化基因长度，再标准化测序深度）
【标准化后每个样本的total TPM是相同的，可以更易看出what proportion of reads mapped to what in each sample；此外，RNA-seq数据是用于比较reads的相对量，因此，TPM更为合理】

- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的，log2转化后使数据呈 正态分布 （正态分布是大部分统计学分析方法需要的数据类型）

以上是关于RPKM、FPKM、TPM计算公式的主要内容，如果未能解决你的问题，请参考以下文章