Corset轻松搞定无参转录组差异基因(转载)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Corset轻松搞定无参转录组差异基因(转载)相关的知识,希望对你有一定的参考价值。
参考技术A原文: http://www.novogene.com/tech/suppor/gene-calss/comprehensive/1651.html
Corset特点
无参考基因组的转录组项目分析中,常用方法是 利用Trinity软件进行 de novo * 组装拼接,经过“茧-蛹-蝶”三个步骤,获得转录本序列,这些转录本序列作为后续分析的参考序列。取每条基因中最长的转录本作为unigene,以此进行后续的注释、定量、差异表达分析。再使用获得的差异表达基因,进行GO、KEGG等富集分析,就可以获知与表型相关的信号通路及基因了。*但是仅用最长的一条转录本,不能代表全部的isoform,也不能反映出不同样品间isoform的表达变化。unigene的方法甚至会漏掉一些差异表达的isoform, Corset [1] 可以解决这个问题(图1)。
Corset的优势
以图3为例,ATP5J和GABPA两个基因有一段重叠的部分。当使用无参拼接时,会得到8条转录本,其中3条最长的转录本为拼接引起的假阳性转录本(如cluster b中的转录本)。若使用unigene的方法,根据unigene最长转录本原则,会选取假阳性转录本进行后续分析,这并不准确。而使用Corset聚合“Gene”的方法,可以将这些真实的转录本分离出来(如cluster a和cluster d)(图3)。
此外Corset在差异表达分析中也有亮点。表1是以有参考基因组数据为标准,将 de novo 拼接数据与该标准进行相关性分析 [1] ,结果越接近1,则数据越接近基于参考基因组的结果(即真实结果)。通过比较 de novo 拼接的三种处理,No Clustering为全部转录本数据,unigene为最长的转录本数据,“Gene”为用Corset聚合转录本数据。结果显示“Gene”提供了更准确的差异表达分析结果,尤其是在鸡 [2] 、人 [3] 等转录组复杂的物种,而对最小可变剪切酵母 [4] 影响较小,表明”Gene”的方法对isoform多的物种更具优势(表1)。
Corset的原理
Corset是Trinity官方推荐的软件。其在Trinity拼接基础上,根据转录本间Shared Reads将转录本聚合为许多cluster,再结合不同样本间的转录本表达水平及H-Cluster算法,将样本间有表达差异的转录本从原cluster分离,建立新的cluster,最终每个cluster被定义为“Gene”。该方法聚合冗余转录本,并提高差异表达基因的检出率(图2)。
Corset的应用
Corset已经被用于解决高等动物如转录组复杂生物,海洋生物如三刺鱼、红螯虾,昆虫如白蛉等无参物种的科学研究问题(表2)。
参考文献
[1] Davidson N M, Oshlack A. Corset: enabling differential gene expression analysis for de novo assembled transcriptomes[J]. Genome Biology, 2014, 15(7):1-14.
[2] Ayers K L, Davidson N M, Demiyah D, et al . RNA sequencing reveals sexually dimorphic gene expression before gonadal differentiation in chicken and allows comprehensive annotation of the W-chromosome[J]. Genome Biology, 2013, 14(3):1-17.
[3] Trapnell C, Hendrickson D G, Sauvageau M, et al . Differential analysis of gene regulation at transcript resolution with RNA-seq[J]. Nature Biotechnology, 2013, 31(1):46-53.
[4] Nookaew I. A comprehensive comparison of RNA-Seq-based transcriptome analysis from reads to differential gene expression and cross-comparison with microarrays: a case study in Saccharomyces cerevisiae[J]. Nucleic Acids Research, 2012, 40(20):10084–10097.
[5] Hébert F O, Grambauer S, Barber I, et al . Transcriptome sequences spanning key developmental states as a resource for the study of the cestode Schistocephalus solidus, a threespine stickleback parasite[J]. Gigascience, 2016, 5(1):1-9.
[6] Tan M H, Gan H M, Gan H Y, et al . Firstcomprehensive multi-tissue transcriptome of Cherax quadricarinatus (Decapoda:Parastacidae) reveals unexpected diversity of endogenous cellulase[J].Organisms Diversity & Evolution, 2016, 16(1): 185-200.
[7] Petrella V, Aceto S, Musacchia F, et al . De novo, assembly and sex-specific transcriptome profiling in the sand fly Phlebotomus perniciosus, (Diptera, Phlebotominae), a major Old World vector of Leishmania infantum[J]. Bmc Genomics, 2015, 16(1):1-15.
转录组数据标准化--Normalization
参考技术A 转录组数据经过比对到参考基因组获得对应基因count值后,因为测序深度以及基因长度的关系,在进行差异分析之前,还需要进行标准化。标准化是转录组数据差异分析必不可少的一步。用于转录组差异分析的目前主要是两个软件:Deseq2 和 edgeR;针对这两款软件,学习一下目前的应用的标准化方法。
通过针对每个样本获得对应的大小因子Cj来使不同样本的计数具有可比性,即使这些样本的排序深度不同。
首先先确定几个后续会使用的变量
具体计算函数如下:
cpm(..., normalized.lib.sizes = TRUE) edgeR
原理:将库的大小作为标准化的一种形式是有直观意义的,因为将一个样本测序到一半的深度,平均会得到映射到每个基因的读取数的一半。
计算方法:
calcNormFactors(..…,method="upperquartile",p=0.75) edgeR
原理:与规范微阵列数据的标准技术类似,本方法是根据分位数等参数匹配基因计数的样本间分布。例如,可以简单地按样本的中位数对其计数进行缩放。由于零和低计数基因的优势,中位数对不同水平的测序工作没有提供信息。相反,建议使用每个样本的上四分位数(75-第百分位数)。
计算方法: 1. 计算样本上分位数(75%)然后按库大小缩放读取计数
2. 重新计算总的reads count的上分位数
3. 计算Cj因子
calcNormFactors(..…, method ="RLE") edgeR
estimateSizeFactors(...) DESeq, DESeq2
calcNormFactors(..,method="TMM") edgeR
以上是关于Corset轻松搞定无参转录组差异基因(转载)的主要内容,如果未能解决你的问题,请参考以下文章