RNA-seq中基因表达表达定量单位选择

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RNA-seq中基因表达表达定量单位选择相关的知识,希望对你有一定的参考价值。

参考技术A     做RNA-seq可以比较不同样本之间基因表达水平的差异,那么如何衡量基因的表达水平呢?

    最简单的方法是,直接比较mapping到某一个基因的reads数目。但是这种做法有不足:

基因长度差异引起误差:如果一个gene1的外显子长度是gene2的10倍,在某组织内两个基因同样产生一个转录本,建库测序后mapping到gene1的reads数远高于gene2,造成了误差。

测序深度引起误差:相同材料分两份同时建库,假设材料1公司返回数据包含100w条reads,材料2公司返回数据包含200w条reads,mapping到同样一个基因的reads数,材料2大概是材料1的两倍。

为此,通用的做法是用外显子长度和reads总数目来校正,以下是几个衡量表达量的单位:

1.RPKM(主要针对单端测序)

RPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

mapping到gene1外显子的reads/(mapping到基因组的reads数目*gene1外显子长度)

2.FPKM(主要针对双端测序)

fragments的概念:pair-end reads两个reads都比对上,这一对reads算一个fragment;只有其中一个reads比对上,比对上的reads算一个fragment,所以2*fragments数>reads数

FPKM= total exon fragments/ (mapped reads (Millions) * exon length(KB))

mapping到gene1外显子的fragments/(mapping到基因组的reads数目*gene1外显子长度)

3.TPM

TPMi = ( Ni/Li )*1000000 / Σ Nj/Lj

Ni是mapping到genei的reads数,Li是genei的外显子长度。TPM的定量思路是,每一个检测到表达的gene都用外显子长度进行校正,然后看某一个gene所占的比例。我们其实可以发现,其实TPM就是FPKM值的百分比,参考( http://www.bio-info-trainee.com/2017.html

    做RNA-seq,我们会得到一个纵轴是gene,横轴是样品的表达矩阵,如果用RPKM/FPKM定量,材料i所有基因的表达量之和与材料j的不一定相同(表达矩阵的两列),不适合材料之间的比较,可用于同一材料比较不同基因的表达水平;用TPM定量,任意材料所有基因的表达量之和都是1,可用于比较不同材料间的基因表达。

单细胞RNA-seq比对定量用什么工具好?使用哪个版本的基因组?数据来说话

这么多工具和基因组版本,选择困难症犯了,到底用哪个好呢?

2018 nature - Developmental diversification of cortical inhibitory interneurons : ENSEMBL release 84 Mus musculus genome

2017 Molecular Cell - Single-Cell Alternative Splicing Analysis with Expedition Reveals Splicing Dynamics during Neuron Differentiation : STAR, human genome (hg19), using GENCODE (v19) gene annotations; sailfish - GENCODE v19 protein-coding and long non-coding RNA annotation. Outrigger

2017 - Science - Single-cell RNA-seq reveals new types of human blood dendritic cells, monocytes, and progenitors : UCSC hg19 transcriptome; RSEM; TPM; 可行但是不完美,建议用count

2017 - Cell - Single-Cell Analysis of Human Pancreas Reveals Transcriptional Signatures of Aging and Somatic Mutation Patterns : cutadapt; hg19; 

2015 - Cell Stem Cell - Single-Cell Transcriptome Analysis Reveals Dynamic Changes in lncRNA Expression during Reprogramming : TopHat; mm9; Cufflinks; DESeq

2017 - Nature - : UCSC mm10 mouse transcriptome using Bowtie; RSEM

 

小结:

QC: cutadaptb不错哦

如果只想进行定量,那就用bowtie、bowtie2比对,再用RSEM定量,这CNS用得最多;但是,单细胞能用TPM吗?显然不行,因为表达基因的数量差异太大了,这会带来很严重的偏差。

如果想要Reads count,那还是用FeatureCounts吧。(网上貌似说FeatureCounts比HTseq算法更好一些,但是HTseq2015年发表以来,引用了3000多次了,真是纠结选哪个!!!)

参考:Compariosn Htseq And Feature Count

http://bioinformatics.cvr.ac.uk/blog/featurecounts-or-htseq-count/

http://genomespot.blogspot.hk/2014/09/read-counting-with-featurecounts.html

 

如果想鉴定可变剪切,那就必须Tophat、Hisat2和STAR中选了,Hisat2引用少得可怜;为什么大家都不用呢?STAR的引用秒杀它,Tophat就太老了,不用也罢。

 

 

以上是关于RNA-seq中基因表达表达定量单位选择的主要内容,如果未能解决你的问题,请参考以下文章

RNA-Seq 数据的定量之RPKM和FPKM

RNA测序相对基因表达芯片有什么优势?

R语言DESeq2基因差异表达分析

RNA-seq转录组名词解释基础

RNA-seq数据的基因共表达网络分析

RNA-seq中的基因表达量计算和表达差异分析