RPKM, FPKM 和 TPM
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RPKM, FPKM 和 TPM相关的知识,希望对你有一定的参考价值。
参考技术A 在RNA-seq中,某一段基因区域内的read counts取决于测序的深度和基因的长度;基因越长、测序深度越深,比对到该基因所在区域的read counts数目就会相对越多。因此在比较不同样本中基因的差异表达时,首先需要对read counts数据进行标准化,即对基因长度和测序深度进行标准化。目前常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作为标准化数值。RPKM的计算分两步:
FPKM与RPKM的计算过程相同,只是RPKM用于单端测序结果,FPKM用于双端测序结果。
TPM 与RPKM/FPKM的区别在于:TPM先消除基因长度的影响,再消除测序深度的影响。
其计算分两步:
由计算公式可知,每一个样本中所有基因的TPM之和都等于10^6, 每个基因的均值都等于10^6/N(N为基因总数)。由于每个样本总的TPM值是相同的,这样便于样本间基因差异的比较。
转录组表达定量- Read count?CPM? RPKM? FPKM?
参考技术A1.Read count
数值概念:比对到某基因的reads数。
用途:用于换算CPM、RPKM、FPRM等后续其他指标;同时作为基因异分析软件(如DESeq和edgeR)的输入值,也就是说差异分析的结果来自于 read count的计算,而非CPM、RPKM、 FPKM,表达定量的结果主要用于主成分分析、层次聚类分析。
2.CPM:Counts per million
数值概念:计算公式:CPM= A/mapped reads*1000000 A为比对到某基因的reads数(read count)。
用途:在某些情况下,只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。
CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较,则不得不考虑基因长度的不同。如果进一步做长度的均一化,就得到了下面的RPKM、FPKM。
3.RPKM:Reads Per Kilobaseof exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
数值概念:计算公式:RPKM=(1000000*A)/( mapped reads *gene length/1000)
设A 为比对到某基因的 reads数(read count)。
RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异和不同基因间表达高低的比较。
用途:用于与基因表达量相关的后期分析。基因表达趋势分析、WGCNA共表达网络构建,热图绘制等都使用。
4. FPKM : Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
FPKM意义与RPKM极为相近。二者区别仅在于,Fragment与Read。RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正。只要明确Reads和Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段【双端序列即使丢弃1端reads,让按照1个Fragments计算】。
以上是关于RPKM, FPKM 和 TPM的主要内容,如果未能解决你的问题,请参考以下文章
RNA_Seq分析中的标准化(reads_count,FPKM, RPKM, TPM)