基因组组装中的pipeline是啥意思

Posted 2023-05-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基因组组装中的pipeline是啥意思相关的知识，希望对你有一定的参考价值。

基本简介 2009年12月7日,国际著名科学期刊《自然》在其生物技术分刊《Nature Biotechnology》上发表了由深圳华大基因研究院领衔,华南理工大学主要参与的合作研究成果《构建人类泛基因组序列图谱》.该论文首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和,并因此树立了新的人类基因组测序标准,为未来医学研究指明了方向,反映出中国基因组学在世界的领先地位. 研究发现该研究使用深圳华大基因研究院自主研发并具国际领先地位的第二代测序技术大基因组组装工具,对炎黄一号基因组(即首个亚洲人个人基因组)进行深度测序和拼接,发现了人类基因组中除原先公认的单核甘酸多态性、插入删除多态性和结构性变异以外,还存在着种群特异甚至个体独有的DNA序列和功能基因.例如,在该研究中发现了主要在亚洲人群内特有的基因序列. 研究领域国际人类基因计划中,基于欧洲人DNA的作为参考基因组序完成的参考基因组序列,为目前绝大多数人类基因组学研究的数据基础.多年来,大多数科学研究都认为每个个体的基因组均与该参考基因组相似,仅有替换或重排性质的变化.该研究作为全球首个通过新全基因组组装方法,对多个人类个体基因组进行拼接、对基因组序列进行补充,分析指出了人类基因组中存在“有或无”型的基因变异,从而首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和. 成果这一研究树立了新的人类基因组测序标准,并指出了未来医学研究的方向,进一步证明自主构建中国人群医学基因组学图谱、推进个人基因组研究和个体化医学研究的必要性,是中国科学家在人类基因组研究领域的又一重要贡献,反映了中国基因组学在世界的领先地位. 此项研究也彰显了创新型教育体系人才培养的初步成果.论文并列第一作者罗锐邦和另一名署名作者金鑫是华南理工大学大三和大四的在读学生,同属华南理工大学—深圳华大基因研究院基因组科学创新班同学. 参考技术A 管道，可以理解为你上学有三条路，今天走左边，明天走中间，就是不同的pipeline

三代组装小基因组研究综述

三代组装各种原理和方法都有。

近日illumina发布了新的测序仪NovaSeq系列，这个测序是相当的便宜，这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq，感兴趣的自行百度就可以了。

小编目前主要是三代动植物基因组方向，今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对，可以认为是所谓的领路人吧。

今天分享给大家我的阅读理解，希望大家能有所收获。

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly

众所周知基因组组装类似将一幅画撕碎，然后再拼接起来，所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜，但是二代的短片段对于拼接可以说作用非常有限，尤其是对GC富集区、重复区等。相反，长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组，另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。

一、背景介绍

根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%，这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段，短片段组装。另外短片段组装用来研究结构变异作用也很受限，尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用，小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。

针对短片段基因组组装而言，最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型，第一种就是全基因组分布的序列，另一种就是串联重复序列，这两种重复序列在利用传统图论方法组装的时候会引起较大的问题，很容易导致最后什么都没有组装出来。但是长的read可以简化组装，解决好这些重复区域，甚至直接跨过这些重复区域，因此这样就不存在重复序列干扰组装的问题。

如果这个重复序列太长超过了长片段read的长度，同样还是解决不了基因组中高重复的问题，同样组装还是会有问题，这里大家不用担心，对于微生物的重复序列中rDNA operon 占比最高，大概在77%左右，但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在１０ｋｂ以上，解决这些重复没有任何压力。数据表明利用三代可以解决８０％的微生物基因组。

二、现有的三代测序平台介绍

（1）PacBio

14年还没有sequel，重点介绍RS，RS和sequel除了通量上不一样，其他的小编认为都差不多。

RS测序的准确性平均在82%左右（2011年数据）刚开始RS由于其错误率较高，不能单独使用，只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升，目前准确性在87%左右。另外由于其没有GC偏好，因此利用较高的深度通过统计学模型来提升测序深度是非常有效的，纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。

（2）IIumina synthetic long reads ，Moleculo

这个小编不是很了解，虽然其测序片段较长，但是其存在和二代测序同样的的问题------严重的GC偏好，所以基本不用于denovo assembly。

（3）Oxford Nanopore MinION

如果说传统的测序仪类似传统互联网，那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低，没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候，测序就是很大众的事情啦。

三、组装算法

组装这里其实有很多种方法，整体来说有如下几种情况。

1、直接利用OLG（重叠法）通过overlap进行组装的，代表软件是Celera Assembler，这种方法对原始的read的质量要求较高。

2、混合拼接，基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量，然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。

3、不借助其他数据进行纠错，通过三代自身进行纠错，然后再利用OLG进行组装。代表软件HGAP、Sprai等。

4、组装提升，组装提升部分分为补洞和重新对scaffold进行连接，排序等。

这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化，主要的代表就是二代组装神器Allpaths-LG。

当然以上的方法和软件都有其好的一面和不好的一面，最重要的是要理解什么时候利用哪一个软件。

四、讨论

建议在小基因组测序的时候三代测100x以上，这样对于得到一个高质量的小基因组最为保险，当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要，一定要多加注意。最后不想说，但是文献中提及到了，数据的分析问题可以利用在线的一些商用的云系统，比如Amazon Web Service，价格5美元以下，WHY？？

五、参考文献

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.

以上是关于基因组组装中的pipeline是啥意思的主要内容，如果未能解决你的问题，请参考以下文章

o值27.76n值28.03是啥意思

常见问题，解惑，总结

BRAF基因第15号外显子呈突变型是啥意思呢？

生物信息里PE reads是啥意思？

Java NIO: IOException: Broken pipe 是啥意思？ [复制]

三代组装小基因组研究综述