三代测序入门

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了三代测序入门相关的知识,希望对你有一定的参考价值。

参考技术A

移步github

共有的特点:

10X Genomics,是常规Illumina二代测序的升级版,由于开发出了一套巧妙的Barcoding建库方案,使得Illumina这种短读长二代测序能够得到跨度在30-100Kb的linked reads信息,与二代测序数据相结合,在Scaffold的组装上能够得到媲美三代测序的组装结果

其GC偏好性如何?

10X Genomics技术相对于Illumina来说,有改进,但依旧是个拱形,而PacBio则是无偏倚的均一分布。10X的技术,其Coverage一样是受GC含量影响较大的,那么如果真要应用10X技术,那么必须注意目标DNA的GC含量分布最好能控制在30~70%。

真正的单分子测序(Helicos True Single Molecule Sequencing)

待测DNA 被随机打断成小片段,在每个小片段( 200bp)的末端加上poly-dA,并于玻璃芯片上随机固定多个 poly-dT 引物,其末端皆带有荧光标记,以利于精确定位。

首先,将小片段 DNA 模板与检测芯片上的poly-dT 引物进行杂交并精确定位,然后逐一加入荧光标记的末端终止子。这个终止子与 Illumina 的终止子可不一样,不是四色的,是单色的,也就是说所有终止子都标有同一种染料。

在掺入了单个荧光标记的核苷酸后,洗涤,单色成像,之后切开荧光染料和抑制基团,洗涤,加帽,允许下一个核苷酸的掺入。通过掺入、检测和切除的反复循环,即可实时读取大量序列。最后以软件系统辅助,可分析出完整的核酸序列。

缺点 :Heliscope 在面对同聚物时也会遇到一些困难,但可以通过二次测序提高准确度;由于在合成中可能掺有未标记的碱基,因此其最主要的错误来源是缺失。

PacBio SMRT(single molecule real time sequencing)技术也应用了边合成边测序的思想,并以SMRT 芯片为测序载体。

基本原理是:DNA 聚合酶和模板结合,4 色荧光标记4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。

DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。

PacBio SMRT 技术的一个关键是怎样 将反应信号与周围游离碱基的强大荧光背景区别出来

优缺点:

该技术的关键之一是,它们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA 碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。

测序原理:

特点:

Nanopore 测序仪 MinION 的一些特征:

ONT公司目前推出的几款测序仪:

在analysis文件夹中,下机的数据被分割为三个文件进行存储

数据的命名:

Pacbio 数据的文库模型是两端加接头的哑铃型结构,测序时会环绕着文库进行持续的进行,由此得到的测序片段称为 polymerase reads ,即一条含接头的测序序列,其长度由反应酶的活性和上机时间决定。目前,采用最新的 P6-C4 酶,最长的读长可达到 60kb 以上。

polymerase reads 是需要进行一定的处理才能获得用于后续分析的。这个过程首先是去除低质量序列和接头序列:

处理后得到的序列称为 subreads ,根据不同文库的插入片段长度,subreads 的类型也有所不同。

对长插入片段文库的测序基本是少于2 passes的(pass即环绕测序的次数),得到的reads也称为 Continuous Long Reads (CLR) ,这样的reads测序错误率等同于原始的测序错误率。

而对于全长转录组或全长16s测序,构建的文库插入片段较短,测序会产生多个passes,这时会对多个reads进行一致性校正,得到一个唯一的read,也称为 Circular Consensus Sequencing(CCS)Reads ,这样的reads测序准确率会有显著的提升。

不同于二代测序的碱基质量标准Q20/Q30,三代测序由于其随机分布的碱基错误率,其单碱基的准确性不能直接用于衡量数据质量。那么,怎么判断三代测序的数据好不好呢?

需要关注的是两个比例:

目前采用的组装策略:

这四种组装策略并不是完全孤立的,在一个组装任务的不同阶段会用到不同的方法

不同的组装策略可以选用的工具:

基因组的组装问题,实际上就是从序列得到的图中搜寻遍历路径的问题,有两种构建图的方法:

可以看到,随着reads长度的增加,基于OLC算法的组装工具组装出的contigs的长度几乎在线性增长,而基于de Bruijn图算法的组装效果并没有随着reads长度的增加而提高

三代单分子测序会产生较高的随机错误,平均正确率在82.1%-84.6%。这么高的错误率显然不能直接用于后续的分析,需要进行错误校正:

校正过程中会将short reads未覆盖到的Gap进行裁剪,short reads在PacBio long reads上的覆盖情况:

这样做的其中一个考虑是去除adapter

那么是什么原因导致了低覆盖度区域的产生的呢?

Base-calling做的就是从测序仪输出的电流信号波形图中将碱基解码 (decoding) 出来

第一步就是就是对波形图进行分段 (segmentation),即检测每个current shift的边界,这一步由ONT公司提供的 MinKNOW 完成,但是分段基于的假设是ssDNA分子匀速穿过nanopores,但是由于ssDNA穿过nanopore的速度很快,很容易产生一两个碱基的速度差异,这样就容易在decoding时造成insert和delete

接着就基于current shift进行base calling,ONT公司提供的base caller为Metrichor,其底层算法基于HMM,将可能的k-tuple(由k个碱基组成的序列)作为隐藏状态,将current signals作为观测状态。ONT公司最新开发出的Metrichor用RNN取代了HMM,并将其整合到其开发出的新的生物信息数据分析平台EPI2ME中

随后,科研圈又开发出了开源的base calling工具,Nanocall 和 DeepNano。

ONT后来又在github上开源了一个RNN base-caller —— Nanonet

测序时,测序仪 MinION 连接上主机,安装在主机上的软件 MinKNOW 控制测序仪,对于每条reads,其 signal segmentation 结果(包括segment mean, variance and duration)以及测序过程中的 metadata 会被保存成FAST5格式的二进制文件(基于 HDF5标准 的变种)。

保存在FAST5文件中的原始数据会经过云端的Metrichor的处理,产生的解码的序列会被保存在另外的以 .FAST5 为后缀的HDF5文件中,包含一条template read和一条complement read或只有一条 2D read 。

MAP (MinION Access Programme) community 开发出的用于处理FAST5文件的工具,它们均能从FAST5文件中解析出FASTA/FASTQ文件,除此之外还有各自特色的质量统计功能:

参考资料:

(1) 生物技能树论坛:PacBio sequence error correction amd assemble via pacBioToCA

(2) 天津医科大学,伊现富《系统生物学-chapter2》

(3) Nanopore 第四代测序技术简介

(4) Magi A, Semeraro R, Mingrino A, et al. Nanopore sequencing data analysis: state of the art, applications and challenges.[J]. Briefings in Bioinformatics, 2017.

(5) 细节曝光!Oxford Nanopore真机还原,听听圈内人怎么说

(6) 三代测序--QC篇

(7) PacBio Training: Large Genome Assembly with PacBio Long Reads

(8) Koren S, Schatz M C, Walenz B P, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.

(9) 冷泉港ppt:Hybrid De Novo Assembly of Eukaryo6c Genomes

(10) Leggett R M, Darren H, Mario C, et al. NanoOK: multi-reference alignment analysis of nanopore sequencing data, quality and error profiles[J]. Bioinformatics, 2016, 32(1):142-144.

三代测序技术简介

第三代测序技术是指单分子测序技术,在测序过程中不需要涉及PCR扩增,实现了对每一条DNA分子的单独测序。三代测序技术具有超长读长,还拥有不需要模板扩增、运行时间较短、直接检测表观修饰位点、较高的随机测序错误等特点。它弥补了第二代测序读长短、受GC含量影响大等局限性,已在小型基因组从头测序和组装中有较多应用。有三家公司推出的三代测序平台是比较有代表性的,分别是Pacific Biosciences(PacBio)公司的单分子实时(Single-molecule realtime,SMRT)测序技术、Oxford Nanopore公司的单分子纳米孔测序技术(The single-molecule nanopore DNA sequencing)、和Helicos公司的真正单分子测序技术(True single-molecule sequencing, tSMSTM)。

  • Helicos,是第三代测序仪的先驱,它生产了第一台单分子测序仪HeliScope,真正实现了单分子测序。但其高达99.9万美元的售价阻碍了它的推广,到2012年11月中旬,Helicos正式宣布破产。

  • Oxford Nanopore,2012年2月份,Oxford Nanopore发布了一系列纳米孔DNA测序和蛋白质分析数据,并向外界展示了它的GridION TM系统和MinIONTM设备,但产业化仍未实现。
Nanopore纳米孔测序的基本原理是:在充满了电解液的纳米级小孔两端加上一定的电压(一般为100~120 mV)时,可以很容易地测量通过此纳米孔的电流强度。纳米孔的直径非常细小(约2.6 nm),只能允许单个核苷酸通过,在核苷酸通过时,纳米孔被核苷酸阻断,通过的电流强度随之变弱。由于4种核苷酸碱基的带电性质不同,它们在通过纳米孔时,被减弱的电流强度变化程度也就有所不同。这样,由多个核苷酸组成的长链DNA或者RNA在电场的作用下由负极向正极方向移动并通过纳米孔时,检测通过纳米孔的电流强度变化,即可判断通过纳米孔的核苷酸种类,从而实现了实时测序。纳米孔测序的DNA模板无需像二代测序技术那样进行扩增即可测序,因而具有读长长、实时、单分子等特点,并且可以极大降低测序成本。
  • Pacific Biosciences,是目前市场接受度和使用度最高的三代测序仪,它以SMRT Cell为测序载体进行测序反应。SMRT Cell是一张厚度为100 nm的金属片,一面带有15万个(2014年数据)直径为几十纳米的小孔,称为零模波导(zero-mode waveguide,ZMW),也可以简称为纳米孔。测序时,系统将测序文库、DNA聚合酶和带有不同荧光标记的dNTP放置到纳米孔的底部进行DNA合成反应。DNA聚合酶分子通过共价结合的方式固定在纳米孔底部,通常一个纳米孔固定一个DNA聚合酶分子和一条DNA模板。加入DNA聚合反应所需底物——4种带有四色荧光标记基团的dNTP及缓冲液。根据模板链核苷酸顺序,相应的dNTP进入DNA模板链、引物和聚合酶复合物中发生链延伸反应,同时通过检测dNTP荧光信号,获得荧光信号图像,经计算分析获得DNA碱基顺序。每个SMRT Cell大约可以同时进行12万个以上的单分子测序反应。
核心技术:
第一,零模波导孔技术(Zero-Mode Waveguides,ZMWs)让光只能照亮固定了单个DNA聚合酶/模板分子的纳米孔底部。
第二,磷酸化的核苷酸可帮助固定的DNA聚合酶完成一个全天然的DNA链合成过程。

Pacbio测序仪比较

到目前为止,PacBio公司基于SMRT测序技术共推出了三款测序仪,第一款产品PacBio RS在2011年正式发布并商用;2013年4月发布了升级版PacBio RS Ⅱ;2015年10月推出全新升级的三代测序仪PacBio Sequel测序系统。目前RS系统已停止生产,国内很多公司正在积极引进的Sequel平台,其原理与RS II System相同,但是测序通量和数据质量有了大幅提高。新平台的引进与应用还需要一段时间,因此目前市面上使用最广泛的仍然是RS II System。
技术分享图片

PacBio三代测序基本流程

技术分享图片

PacBio三代测序的优势

1、超长读长:PacBio Sequel平台最大读长能达到70kb,平均读长12~15kb,能够完美跨越高重复区域和高复杂区域,减少拼接成本。。
2、一致性序列准确:通过reads的自我矫正,30X以上准确率能够达到99.999%。
3、均匀的覆盖:无需PCR 扩增,避免了覆盖度不均一和PCR 冗余,完全跨过高GC 含量区域,实现对整个基因组的均匀覆盖。
4、直接检测碱基修饰:可以直接检测到甲基化信息,同步进行表观遗传学性别识别。当碱基有额外修饰时,DNA聚合酶的合成速度会减慢,对应的信号会被检测出来。每种碱基修饰事件都会使聚合酶的“停顿模式”PacBio Sequel产生微小差异,最终反映到荧光脉冲信号的间隔上。除了甲基化修饰,还可以检测5-hC、5-hmU、5-hU、1-mA、6-mA、8-oxoA、BPDE、6-mT、6-mG等碱基修饰,甚至可以鉴别传统亚硫酸氢盐测序法无法区分的甲基化修饰和羟甲基化修饰。PacBio Sequel平台可以在测序的同时即可检测表观遗传学修饰信息,只需对测序数据选择合适的软件即可分析碱基修饰信息。
5、以单分子分辨率表征复杂群体:为区分同一样本中序列相近的DNA分子产生了分子内的一致性序列的测序模式,称为环状一致性测序(CCS),可用于用于各种复杂群体的应用,还有iso-seq。

分析应用

1、从头组装
2、重测序和变异检测
3、RNA测序
4、表观遗传
5、多重分析
技术分享图片

参考
1、PacBio Sequel成为三代测序最新起跑线
2、浅扒三代测序
3、我是Pacbio Sequel,这是我的最新简历














以上是关于三代测序入门的主要内容,如果未能解决你的问题,请参考以下文章

加速40%,腾讯云联合诺禾致源发布国内首个三代测序Falcon加速方案

三代测序文章

第三代测序popular workflow

三代测序组拼接组装工具Falcon

三代组装小基因组研究综述

三代组装小基因组研究综述