小白的生信笔记(1)——高通量测序的一些基础知识

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小白的生信笔记(1)——高通量测序的一些基础知识相关的知识,希望对你有一定的参考价值。

参考技术A 1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。 Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

不同于一代测序,NGS采用的是边合成边测序的策略,主要的技术路线以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性,需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增(一种可以快速复制大量产生相同DNA片段的技术)和测序两个步骤。但是PCR过程会一定程度增加系统的错误率,并且带来的错误具有偏向性,这也是二代技术存在的问题之一。

illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等,涵盖了不同的应用场景的不同需求。

第二代测序技术测序平台和测序成本,测序费用,花费时间,建库等实验技术难度,错误率以及读长(150-400bp),分析工作的体量,对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。

PacBio 的SMRT 技术,LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。

PacBio SMR

PacBio的SMRT仍然运用边合成边测序的策略,但是其超强活性的DNA聚合酶是实现超长读长(~1000bp)的关键。反应在纳米管中进行,方便达到超高通量的目的。利用的是ZMW(零模波导孔)原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快,每秒约10个dNTP。目前的问题在于测序的错误率太高(81-83%),这也是大多数三代技术需要解决的共同问题。不过错误随机,几乎没有偏向性,为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。

Oxford Nanopre MinlON

而Nanopore的MinlON测序仪应用纳米孔单分子技术,这是一种基于电信号的测序技术,比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔,由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压,使电流通过小孔。当不同的DNA碱基通过纳米孔时,其对电流的阻碍作用短暂地影响流过纳米孔的电流强度,不同碱基影响的程度不同,这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多,读长长(大约在几十kb,甚至100 kb),错误随机,而不是聚集在读取的两端,通量较高,该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序,还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制,或成为其投入市场的阻碍。

LifeTechnologies IonTorrent

IonTorrent 使用半导体芯片,在芯片的微孔中固定DNA链。依次加入AGCT的碱基,DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后,便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基,则记录到的信号翻倍,从而将其识别。如果不匹配,则记录不到变化。这种技术由于不涉及荧光激发和拍照,则运行时间被大大缩减(仅数小时),无需激光光源,光学系统和照相系统,也不需要荧光标记,规避了这些环节带来的误差。但是其读长不算太长(200bp),并且当遭遇多个连续的相同碱基时,强烈的PH变化会带来误差。

de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。

单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变,称做SNV。

基因组上小片段(<50bp)的插入或缺失,形同SNP/SNV。

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。 

基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。 

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...…Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。 

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...……Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。 

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read回贴到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构

Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。

PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质量是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%;

RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些;

SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%。

Illumina的测序仪的数据产量高,数据质量也是最高的。因为采用带终止基团的荧光dNTP,所以在测Homopolyer(碱基同聚物,例如一串4个T:TTTT)等的时候,不会产生移码错读。

Roche 454采用的是pyrosequencing的测序原理,通过水解DNA全成过程中所产生的焦磷,放出光,通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。

Ion Torrent,包括PGM和Proton,采用测量DNA合成过程中所释放的氢离子引起的PH值的变化,来得到序列。优点是速度最快,上机前约3~4天的时间,上机只要2~4个小时。

SOLID采用的是杂交,连接反应,再测荧光的方法。因为杂交,所以速度慢,测长较短。现在事实上已被淘汰。

PacBio是三代测序,也就是单分子测序。目前的情况是测序长度可以在1个KB以上,而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低,目前的测序准确度只有每个碱基80~90%。另一方面通量较小,一次读7万条reads.

部分参考:https://www.jianshu.com/p/acd38ee4b7a1

1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。

第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。

第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。

干货分享《生信基础+主流编程(perl_linux_python_R等)+视频+科普读物》20G限时免费下载

近年来,随着测序技术的不断升级,测序通量越来越高,同时测序成本直线下降,高通量测序技术逐渐应用在科研、医疗等各个研究领域得到广泛应用。伴随着大数据处理关键技术的突破、数据共享等契机的发展,大数据将在促进生物学发展中发挥重要的作用,同时生物信息学也发展为当今最具发展前途的学科之一。


生物信息学自产生以来,大致经历了三个发展阶段:前基因组时代、基因组时代和后基因组时代。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库的建立和交互界面工具的开发等;后基因组时代的研究重点主要体现在基因组学(genomics)、比较基因组学(Comparative genomics)和蛋白质组学(Proteomics)等方面,标志则是大规模基因组分析、从核酸和蛋白质序列、表达谱数据出发,分析序列中表达的结构与功能、基因调控网络、生化代谢途径的生物信息。这三个阶段虽无明显的界限,但反映出整个研究中信的转移变化情况。


目前,生物信息学的主要研究内容已经从DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化;转移到比较基因组学、代谢网络互作分析、基因表达网络互作分析,蛋白质结构与功能分析以及药物靶点筛选等,后基因组时代是生物信息学与功能基因组、蛋白质组、结构基因组等领域的结合。


生物信息学既然这么火,那进入的门槛高吗?需要有什么背景知识吗?有没有相关资料可以快速学习的?那么福利来了,小编整理了当今最主流的生信技术资料,免费分享!!!


部分资料截图如下:



【干货分享】《生信基础+主流编程(perl_linux_python_R等)+视频+科普读物》20G限时免费下载


【干货分享】《生信基础+主流编程(perl_linux_python_R等)+视频+科普读物》20G限时免费下载



干货资料获取方法

2、回复“生信资料”获取资料。



若想 持续获取 各种学习资料,

周三百迈客医学干货福利日


敬候您的光临。


以上是关于小白的生信笔记(1)——高通量测序的一些基础知识的主要内容,如果未能解决你的问题,请参考以下文章

NGS基础 - 高通量测序原理

ngs中reads mapping-pku的生信课程

干货分享《生信基础+主流编程(perl_linux_python_R等)+视频+科普读物》20G限时免费下载

支持向量机第2讲:SVM的数学原理

高通量测序介绍

你必须要会的生信基础套餐-perl与Linux