RPKM、FPKM、TPM计算公式
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RPKM、FPKM、TPM计算公式相关的知识,希望对你有一定的参考价值。
参考技术A基因表达量的衡量指标有:RPKM、FPKM、TPM。
RPKM: Reads Per Kilobase Million=Reads Per Kilobase Per Million Reads,即每一百万条Reads中,对基因的每1000个Base而言,比对到该1000个base的Reads数。
FPKM: Fragments Per Kilobase Million=Fragments Per Kilobase Per Million Reads。
FPKM与RPKM的区别仅在于,Fragment 与 Read。
RPKM的诞生是针对早期的单端测序,FPKM则是在双端测序上对RPKM的校正。
Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段。
在单端测序中,一个Fragments只测一条Reads,所以,Reads数与Fragments数目相等;
在双端测序中,一个Fragments测两端,会得到2条Reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。
总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以,Fragment的最终数目是Reads的1到2倍之间。
TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)。
TPM的计算分3步:
step1:根据基因/转录本长度校正count值;假设某基因count值为R1,则校正后count值为:
R1/(L1/1000) : L1为该基因的长度; 为什么要除以1000,是因为基因长度要按照kb计算
step2:计算total 校正后count值;即所有基因的校正后count值总和,Rtotal;再除以1百万(1000000)。
step3:计算TPM;TPM结果为:
来自: https://www.jianshu.com/p/fb113ca65a46
标准化之CPM/RPKM/FPKM/TPM
参考技术A - 差异分析 时,需考虑实验设计(样本组成)和测序原理向(测序深度、基因长度、RNA 组成)
- 转录组下游分析 时,采用DESeq2、edgeR和limma,需要的输入数据类型是counts(正整数)
-RPKM:以每个Read为一个单位,单端测序常用
-FPKM:以Fragment一个单位,主要在双端测序
(这两个很相似,都是先标准化测序深度,再标准化基因长度)
-目前推荐使用TPM
(TPM先标准化基因长度,再标准化测序深度)
【标准化后每个样本的total TPM是相同的,可以更易看出what proportion of reads mapped to what in each sample;此外,RNA-seq数据是用于比较reads的相对量,因此,TPM更为合理】
- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的,log2转化后使数据呈 正态分布 (正态分布是大部分统计学分析方法需要的数据类型)
以上是关于RPKM、FPKM、TPM计算公式的主要内容,如果未能解决你的问题,请参考以下文章
RNA-Seq分析|RPKM, FPKM, TPM, 计算对比
关于readsCount、RPKM/FPKM、RPM(CPM)、TPM的理解