RNA_Seq分析中的标准化（reads_count,FPKM, RPKM, TPM)

Posted 2023-04-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RNA_Seq分析中的标准化（reads_count,FPKM, RPKM, TPM)相关的知识，希望对你有一定的参考价值。

参考技术A

1、关于FPKM, RPKM, TPM
在RNA-Seq的分析中，对基因或者转录本的reads count数目进行标准化是一个很重要的步骤，因为落在一个基因区域内的read数目取决于基因长度和测序深度。基因越长read数目越多，测序深度越高，则一个基因对应的read数目也相对越多。所以必须要标准化，而标准化的两个关键因素就是 基因长度 与 测序深度 。我们常用RPKM、FPKM和TPM作为转录组数据定量的表示方法。FPKM／RPKM／TPM都是描述相对定量的单位。

RPKM:
Reads Per Kilobase of exon modelper Million mapped reads：主要用来对单端测序（single-end RNA-seq）进行定量的方法。RPKM(推荐软件: Range, Deseq) 。

在一个样本中一个基因的RPKM等于落在这个基因上的总的read数(total exon reads)与这个样本的总read数(mapped reads (Millions))和基因长度(exon length( KB )) 的乘积的比值。

FPKM
Fragments Per Kilobase of exon model per Million mapped fragments: 主要是针对pair-end测序表达量进行计算。FPKM (推荐软件:cufflinks, Stringtie) 和RPKM 的计算方法基本一致。

FPKM和RPKM的区别就是一个是fragment，一个是read。对于单末端测序数据，由于Cufflinks计算的时候是将一个read当做一个fragment来算的，故而FPKM等同于RPKM。对于双末端测序而言，如果一对paired-read都比对上了，那么这一对paired-read称之为一个fragment，而如果一对paired-Read中只有一个比对上了，另外一个没有比对上，那么就将这个比对上的read称之为一个fragment。而计算RPKM时，如果一对paired-read都比对上了会当成两个read计算，而如果一对paired-read中只有一个比对上了，另外一个没有比对上，那么就计read数为1。故而即使是理论上将各个参数都设置成一样的，也并不能说FPKM=2RPKM。对于单末端测序，虽然理论上FPKM等同于RPKM, 但是实际上即使是使用同一个mapping软件得到的mapping结果，然后再分别去计算同一个基因的RPKM (自己人工计算，或者用现成的一些软件都能算)和FPKM(用Cufflinks计算)，结果却仍然是不同，因为Cufflinks有自己的模型和自己的一些内在算法。

TPM
Transcripts Per Kilobase of exonmodel per Million mapped reads ：TPM (推荐软件:RSEM, Stringtie) ，优化的RPKM计算方法，可以用于同一物种不同组织的比较。

TPM概括了基因的长度、表达量和基因数目。TPM可以用于同一物种不同组织间的比较，因为sum值总是唯一的。

不管是计算FPKM、RPKM，还是计算TPM，我们都要先得到一个ReadCount的矩阵（行为基因，列为样本）。在计算FPKM和RPKM时，都是先按列（也就是这个样本的总read数）进行标化，之后再对对个基因的长度进行标准化。而TPM是先对基因长度进行标准化，之后再对列（这个时候就不再是这个样本的总read数了）进行标化。这样使得最终的TPM矩阵的每列都相同（列和都等于1），也就是说每个样本中的TPM的和都是一样的。这样就会使得我们更容易去比较同一个基因在不同样本中所占的read数的比例。而RPKM/FPKM由于最终的表达值矩阵的列和不同，故而不能直接比较同一个基因在不同样本中所占的read数的比例。

reads_count

在用EXCEL做回归分析时，结果中的标准误差，t Stat，P-value，df，SS，MS，F，Significance F都是啥意思

在用EXCEL做回归分析时，结果中的标准误差，t Stat，P-value，df，SS，MS，F，Significance F都是什么意思，在进行回归分析时有什么意义。
答案越详细越好，谢谢~

标准误差即标准估计误差，tStat指t统计量，P-value指p值，df指自由度，SS指样本数据平方和，MS指样本数据平均平方和，F指F统计量的值，Significance F指p值。这些都是统计学中的术语。

在统计学中，回归分析（regression analysis）指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析。

扩展资料：

回归分析内容：

1，确定变量：明确预测的具体目标，也就确定了因变量。如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。

2，建立预测模型：依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归分析预测模型。

3，进行相关分析：只有当自变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。

4，计算预测误差：回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。

5，确定预测值：利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。

参考技术A 标准误差即标准估计误差，t Stat指 t 统计量，P-value指p值，df指自由度，SS指样本数据平方和，MS指样本数据平均平方和，F指F统计量的值，Significance F指p值。这些都是统计学中的术语，只知道中文名称对理解这些词的帮助不是很大，建议找一本统计学的书看一看，因为这些都是很系统的一套理论。参考技术B f

以上是关于RNA_Seq分析中的标准化（reads_count,FPKM, RPKM, TPM)的主要内容，如果未能解决你的问题，请参考以下文章