入门必看—轻松掌握Contig Binning分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了入门必看—轻松掌握Contig Binning分析相关的知识,希望对你有一定的参考价值。

参考技术A 境或人体微生物中广泛存在着菌株水平的差异,这些菌株个体水平的基因差异决定了其功能执行上的显著不同。宏基因组测序是对人体或自然环境样品进行菌株水平研究的唯一途径[1]。而环境样品惊人的复杂性为菌株重建带来了极大的挑战,各种新的实验方法、测序策略和技术工具应运而生,基于宏基因组进行种水平乃至菌株水平研究的分析方法也日渐完善[2]。

Binning的含义是分箱、聚类,指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。根据基于聚类的序列类型的不同,分为reads binning,contig binning 和 genes binning。近年来高分文章(表1)中多使用Contig Binning,即将组成相似或丰度一致的Contigs聚类到同一物种从而完成单菌的草图组装,进一步解析菌株的功能特性。

表1 近年来 Contig Binning 高分文献

1. Contig Binning 原理

利用核酸组成信息( Nucleotide composition )进行 binning :来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(通常是四核苷酸频率),GC含量和必需的单拷贝基因等。

利用基因丰度( Nucleotide abundance ) 变化 :研究发现来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式。

同时利用核酸组成信息及基因丰度变化 :即核酸组成与丰度(NCA-Nucleotide composition and abundance)。NCA策略,既能保证binning效果,也能相对节约计算资源,因此目前主流软件多为NCA算法[3]。

2. 常用的 Contig Binning 软件

下图[3]对常见的一些NCA-based contig binning软件进行了比较。其中MetaBAT[4]是历史引用量最高,且2019年又推出了MetaBAT2[5]。下面利用真实宏基因组数据对使用较为广泛的MaxBin[6],CONCOCT[7],及MetaBAT2软件进行测试比较。

基于相同的contigs进行binning,三个软件资源消耗分别如下表2,CONCOCT软件binning速度快,MetaBAT2相对来说消耗时间较长。

表2 不同软件资源消耗比较

基于15个样本,统计各软件binning结果。并利用 CheckM[13]软件来评估 binning 的质量,综合考虑 binners 的完整度,污染度及大小等方面。表3基于 CheckM 对各软件 binning 结果评估,并统计污染度<10%时,完整度>95%,>70%,>50%的 binners 的个数。发现MetaBAT2 获得的 binners 结果较好。

表3 基于 CheckM 对各软件的 binning 结果进行评估

综上,CONCOCT软件binning速度快,并且得到的binner结果也相对较好,MetaBAT2相对来说消耗时间略长,但得到的binning结果最好。但是由于环境中物种多样性十分丰富,使用一个软件binning可能会丢掉一些物种,如果时间及资源允许,我们可以使用多个软件进行binning,得到结果之后利用ANI>95%(ANI被定义为两个微生物基因组同源片段之间平均的碱基相似度,在近缘物种之间有较高的区分度)去重复。

3. Binning 结果优化

得到高质量的 binners 之后,还可将其进行优化,通常的方法是将样本的高质量reads 比对回各 binners,再通过 SOAPdenovo[8],Spades [9]等软件重新组装。但是如果环境的复杂度很高,mapping得到的reads可能并不都来源于同一个物种,这种情况会严重影响重新组装的效果,可能重新组装后得到的结果比之前更差。另外,mapping及重新组装消耗时间、内存、存储等资源很大。

因此,我们尝试通过 三代 meta 对二代 contig binning 结果进行优化,其过程是利用基因组延伸软件(sspace[10]、pScarf[11]、OPERA-LG[12]等)和三代 reads 对二代 binning 结果进行延伸。延伸后的 binners(表4)在包含序列数,N50,组装总长度,最长 scaftigs 都有明显提升。

表4 延伸后 binners 参数指标

以N50为例,延伸前后N50长度如下图所示,可以看到延伸后N50长度得到明显提升。

4. 高质量 Binners 分析

最终得到高质量的Binners即MAG(metagenome assembled genomes)之后,既可以基于单个MAG进行单菌基因组草图分析,也可以统计MAG丰度进行分组或样本层面的分析。

Contig Binning是研究微生物群落结构及功能的新方法,利用三代宏基因组数据优化,不仅能提升物种组装完整度,同时还能提升物种注释的准确度,挖掘更多的低丰度物种。

参考文献:

[1] Marx V, Microbiology: the road to strain-level identification[J]. Nature methods, 2016. 13(5): p. 401-404.

[2] Donati C, et al., Uncovering oral Neisseria tropism and persistence using metagenomic sequencing[J]. Nature microbiology, 2016. 1: p. 16070.

[3] Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.

[4] Kang, Dongwan D, Froula, et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities[J]. United States: N. p., 2015. doi:10.7717/peerj.1165.

[5] Kang DD, Li F, Kirton E, Thomas A, Egan R, An H, Wang Z. MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies[J]. PeerJ. 2019 Jul 26;7:e7359.

[6] Wu Y W, Tang Y H, Tringe S G, et al. MaxBin: an automated binning method to recover individual genomes from metagenomes using an expectation-maximization algorithm[J]. Microbiome, 2014, 2.

[7] Johannes Alneberg, Brynjar Smári Bjarnason, Ino de Bruijn, et al. Binning metagenomic contigs by coverage and composition[J]. Nature Methods, 2014, doi: 10.1038/nmeth.3103.

[8] Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012 ,1(1):18. doi: 10.1186/2047-217X-1-18. 

[9] Bankevich A, Nurk S, Antipov D, et al.. SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing[J]. Journal of Computational Biology, 2012.

[10] Boetzer M, Pirovano W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information[J]. BMC Bioinformatics, 2014, 15, 211.

[11] Cao MD, Nguyen HS, et al. Scaffolding and Completing Genome Assemblies in Real-time with Nanopore Sequencing[J]. Nature Communications, 2017, Article number: 14515. doi:[10.1038/ncomms14515].

[12] Gao S, Bertrand D, Chia BKH, et al. OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees[J]. Genome Biology, 2016, 17, 102.

[13] Parks DH, Imelfort M, Skennerton CT, et al.. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome Research, 2015, 25(7):1043-55. doi: 10.1101/gr.186072.114. 

以上是关于入门必看—轻松掌握Contig Binning分析的主要内容,如果未能解决你的问题,请参考以下文章

Python 零基础入门必看,这些知识点你都掌握了吗?

必看58 道 Vue 常见面试题集锦,涵盖入门到精通,自测 Vue 掌握程度

3000字《软件测试》从入门到精通全套学习路线整理,零基础必看

C语言入门必看!

数据分析 | 手把手带你轻松入门数据可视化

新手入门必看:VectorDraw 常见问题整理大全