NGS基础 - 高通量测序原理
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NGS基础 - 高通量测序原理相关的知识,希望对你有一定的参考价值。
参考技术A
从1977年Sanger发明了双脱氧链终止法一代测序技术开始,测序技术发展至今已有四十多年时间,先后经历了以GS FLX、Solexa、SOLID为基础的二代测序技术,以及基于单分子实时测序(SMRT)和纳米孔测序技术的三代测序技术。虽然三代测序在蓬勃发展,并在基因组和转录组测序等领域展现出前所未有的优势,但限于成本问题,其应用范围尚不及二代测序。
二代测序技术以其短读长、高通量、准确性高的特点,仍在测序市场上占优势地位。以Illumina Solexa为例,首先利用超声波将DNA打断成200-500bp小片段文库,加接头后DNA片段随机附着于flowcell表面,经过桥式PCR扩增形成“DNA簇”,实现碱基信号强度放大,采用边合成边测序的方法,进行全基因组全面,准确的测序。
2014年Illumina推出HiSeq X Ten测序仪,它利用数十亿个纳米孔的流动槽,较大缩短了测序周期。2017年它又推出了新一代测序仪NovaSeq系列,我们以相同文库分别进行Hiseq Xten系列和NovaSeq系列测序,DNA重测序产出数据指标如下:
看完重测序,再看看转录组文库测序比较:
基于以上结果,总结了以下几点:
1.测序原理:X-ten与Nova6000测序原理均是基于solexa的边合成边测序的原理;Nova6000采用Illumina的EX-AMP簇生成技术,以及新一代的Patterned Flow Cell。
2.Q30质量值:在实际测序中Nova6000的Q30相对于X-ten更稳定且测序时长更短,试剂衰减对质量影响更小,整体的Q30 Nova6000要优于X-ten。
3.测序方式:受限于X-ten的控制软件以及试剂等因素,X-ten只能进行单Index的测序识别;而Nova6000可以进行I7 I5双端Index的测序,理论上可以做到更精准的识别。
4.DNA文库冗余度:Nova6000明确优于X-ten平台。
有木有发现随着二代测序仪器的发展,测序结果真是又快又好,目前二代测序较多的应用于基因组重测序,转录组分析,小分子RNA研究等领域。基于二代测序技术进行遗传图谱构建,基因定位的研究也越来越多。
测序领域常用名词解释
kb=千碱基 kilobase
nt=核苷酸 nucleotide
bp=碱基对 base pair
高通量测序
高通量测序技术(High-throughput sequencing,HTS),有些文献中称其为下一代测序技术(next generation sequencing,NGS),又被称为深度测序(Deep sequencing)
基因组重测序(Genome Re-sequencing)
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法
de novo测序
也称为从头测序
外显子测序(whole exon sequencing)
mRNA测序(RNA-seq)
small RNA测序
Small RNA(micro RNAs、siRNAs和 pi RNAs)
miRNA(microRNA)测序
Chip-seq
染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法
CHIRP-Seq
CHIRP-Seq(Chromatin Isolation by RNA Purification)是一种检测与RNA绑定的DNA和蛋白的高通量测序方法
metagenomic(宏基因组)
Read
高通量测序平台产生的序列标签就称为reads
Contig
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)
Contig N50
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准
Scaffold
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或lllumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold
Scaffold N50
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准
测序深度和覆盖度
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的
转录本重构
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构
以上是关于NGS基础 - 高通量测序原理的主要内容,如果未能解决你的问题,请参考以下文章
二代测序文库构建-概述与挑战(1)
NGS原理- 单细胞转录组测序-横评13种单细胞测序以及单细胞核测序方法
测序领域常用名词解释
测序相关知识总结
肿瘤NGS测序公司生信工程师水平划分
小白的生信笔记(1)——高通量测序的一些基础知识