转录组谜团

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了转录组谜团相关的知识,希望对你有一定的参考价值。

参考技术A

问题来了:

这些问题都会在后面进行解释

转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。它连接了基因组遗传信息与蛋白质组的生物功能。我们日常用的转录组测序一般是为了分析样本间基因表达量差异,当然还可以寻找可变剪切位点,发现新转录本等。

测序技术的首次应用就是用来检测DNA分子的核酸组成的,但是后来人们除了组成成分以外,更想知道哪个成分有多少,这就是定量。测定基因的表达量有许多种方式,比如基因芯片、qPCR等。

基因芯片的开发使得一次性从一个基因组中获得大批基因表达量成为可能,转录组测序在芯片基础上,更加精准。芯片就像模拟信号,而转录组测序就是数字信号,他能检测到更多的差异表达基因(即动态范围大)。

isoforms翻译的话可以翻译成“亚型/异构体”,gene isoforms可以理解为一个基因的不同形态,就是由同一个基因座产生的mRNA,在转录起始位点(Transcription Start Sites, TSSs),编码蛋白序列(protein-coding DNA sequences, CDSs),非翻译区(Untranslated regions, UTRs)这些地方有差别,间接地改变了基因的功能。

它的学名是Alternative splicing, AS,又名选择性剪切。大多数真核基因转录产生的mRNA 前体一般按一种方式剪接产生出一种mRNA,结果只产生一种蛋白质。但有些基因产生的mRNA 前体可按不同的方式剪接,产生多于两种的mRNA。

编码蛋白的成熟mRNA是mRNA前体经过剪切过的, 外显子可以不按其线性次序 剪接, 内含子也可以不被切除 而保留。因此成熟的mRNA中每一个外显子、内含子的存在与否都是不一定的。有 5种类型 :1、外显子跳跃(Exon skipping or cassette exon);2、内含子保留(Intron retention);3、5‘端可变剪切(Alternative donor 5\' site);4、3‘端可变剪切(Alternative acceptor 3\' site);5、特定外显子可变剪切(比如第一个或者最后一个外显子)(Mutually exclusive exons)

RNA反转录成cDNA(cDNA, complementary DNA),测的就是cDNA,通过检测的cDNA表达量,可以推断出RNA的数量。看似流程很简单,就是数一数有多少DNA的片段,如果特定条件下,某个基因cDNA片段数量比较多,那么也就意味着原始RNA的含量也很高,即该基因表达量高。但是实际操作中,正是怎么计数,怎么比较才是分析的精髓。

推荐最少设置三个,五个更好。关于样本重复与测序深度的取舍,这一篇文章给出了解释:Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data

总而言之,就寻找差异基因而言,还是建议多样本量;但是如果想研究可变剪切、发现新转录本的情况,还是要多测深度,加大reads数量

看过这个就明白了:方案很多,几十上百个软件供你选择,其中好用的有很多,但是不会有最好的流程,只有自己搭配出适合自己的。 与其选择流程,不如熟悉原理 ,在结果不合常理时知道怎么去纠正。转录组的基本流程用两套方法就能熟悉过来。

一般就是:质控-》比对(alignment or mapping)-〉估算表达量(read counting)-》表达量比较(differential expression)。当然也有不需要比对就能进行量化分析的软件,比如kallisto【多说一句,它之所以可以跳过序列比对的步骤,是基于一个已经被论证的前提,即一条read具体比对到参考基因的什么位置上,并不影响最终的表达量结果。kallisto主要是确定一个 read 属于哪一个基因,而不关心这个 read 在基因上的位置】

比对环节有两个选择:一是比对参考基因组(genome),可以帮助发现新转录本以及gene isoforms;二是比对参考转录组(transcriptome),也就是在已知基因的前提下,更准确的定量样本中信息

有许多测序reads是来自两个外显子的连接处(也就是剪切位点),如果要比对会参考基因组,reads的中间肯定会被加入一段空白(也就是原来的内含子)。相当于原来reads是脚踏两条船,现在两条船要回家,reads的腿就开始劈叉了。因此,对比软件必须要考虑到这一点,容许reads比对回去后,中间含有大大的空隙。

加入这种比对模式的软件有:

最常用的三种进行相对定量的方法:

转录组分析的正确姿势

转录组分析的正确姿势

 

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化功能注释网络分析等。

转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。

概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

而且现在三代测序火起来了,该怎么去选择呢? 三代测序能帮我们解决什么问题,不能做什么,有什么需要注意的,分析起来有什么不同,二代-三代如何统一分析?也是我们面临的一个新问题。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化高颜值可定制在线绘图工具-第三版),从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小,什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?

生信宝典团队经过紧张的筹备,决定推出一系列的针对生信学习和高通量分析的兴趣小组(在生信学习系列教程的基础上进一步拓展和深入),跟大家一起去走过这段历程。我们的口号是易生信,毕生缘,希望能通过短暂高强度的训练快速推进大家在生信分析领域的进展。

但生信学习是个缓慢的过程,需要教、学、练、改不断的循环。我们希望能通过系列课程,再加上四段式培训模式集中讲解实战(2天)-自行练习(5天)-再讲解答疑考核(2天)-后续视频观摩和群内讨论跟大家一起探索如何尽可能快的学会生信,学到可以自己做,有问题自己可以解决的程度。点击阅读原文可查看详细信息。

课程简介

一、转录组的应用、设计和案例分享

技术分享图片
  1. 转录组学研究技术介绍
  2. 转录组学实验设计和测序原则、注意事项
  3. 转录组学文章案例分析
  4. 在线基因表达资源数据库

二、转录组分析流程实战

技术分享图片
  1. 测序数据质量评估和清洗
  2. 基于比对的差异基因分析
  3. 不基于比对的差异基因分析
  4. 转录本组装和选择性剪接分析
  5. 目标基因富集分析

三、转录组高级分析

技术分享图片
  1. WGCNA基因共表达分析
  2. WGCNA基因、表型关联分析
  3. Cytoscape 共表达网络绘制
  4. 转录组常见图形在线绘制

四、三代测序技术概述

技术分享图片
  1. PacBio和Oxford Nanopore测序的原理
  2. 三代测序的特点和应用
  3. 三代测序在转录组研究的优势和案例分享

五、三代测序基本分析流程

技术分享图片
  1. 原始测序序列去除接头和错误序列
  2. 提取环形一致序列读长(CCS reads)
  3. CCS reads分类(包括全长和非全长CCS reads)
  4. CCS reads聚类(根据CCS reads序列的相似性)获得最终的转录本集合
  5. 最终转录本比对回基因组
  6. 转录本定量和可变剪接分析

以上是关于转录组谜团的主要内容,如果未能解决你的问题,请参考以下文章

有参转录组分析

转录组数据标准化--Normalization

转录组测序1-测序原始数据说明

单细胞转录组测序知识一隅

从零开始学测序——转录组1

转录组测序中 gene 和transcript 的区别