安捷致善内部培训之——不同OTU聚类算法比较研究

Posted 安捷致善

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了安捷致善内部培训之——不同OTU聚类算法比较研究相关的知识,希望对你有一定的参考价值。

  安捷致善的惯例又在激烈的讨论声中结束啦~

  本周培训讲师是卫泽刚博士,此前卫博已为做过《》的培训,本次卫博继续为我们带来《不同OTU聚类算法比较研究》的培训!

主要内容
操作分类单元OTU;
OTU聚类算法比较;
OTU聚类相关算法;

OTU聚类算法总结。

1
操作分类单元OTU

  首先我们看一下操作分类单元OTU,我想OTU这个概念大家都听过好几遍了,尤其是做微生物16s分析相关的。但我不知道大家有没有思考过OTU在什么时候第一次定义或者出现,是在二代测序技术之后还是之前呢,还是伴随着OTU聚类算法的出现而出现呢。通过查找相关文献终于追溯到了OTU的起源,是来自1994年一遍文章的定义。我们看一下出现OTU的那一段话。定义为一种区域片段特定的RFLP(限制性片段长度多态性)模式,而这些区域就是16S序列的可变区域,但究竟是什么模式,应该是一种进化关系上的模式,而且可以肯定的是,不是一条序列。

  在了解了OTU的初始定义之后,我们看一下现在OTU能干啥。目前咱们公司做微生物16s序列分析的流程大致就是这张图,分析内容很全面。我们可以看到生成OTU在哪一个步骤,可以看出以下所有分析都是基于OTU在分析,可见OTU的重要性。 

安捷致善内部培训之——不同OTU聚类算法比较研究

  那么第二个问题来了,我们为什么要进行OTU聚类,直接用序列分析不好吗,一个样本不就几万条或几十万条序列吗?因为我们可以借助于计算机用计算的方法生成OTU。当然了,主要是因为我们不能做到以下三个方面:(1) 对样品中每个物种进行全基因组测序,因为一开始物种鉴定需要考虑到整个DNA序列;(2) 对每个物种进行完整物种命名;(3) 构建百万条序列的系统发生数。所以基于这三个原因,我们还是需要把序列聚类成OTU,然后完成分析。


安捷致善内部培训之——不同OTU聚类算法比较研究

  OTU聚类就是把相似的序列聚在一起,把不相似的序列分离。那这个相似性我们常用的阈值是97%相似性或者3%不相似性,或者3%的距离。现在16S分析的OTU聚类阈值全是设定在3%,所以说这是一个神奇的阈值。3%阈值由来主要是下面两篇文章的解释。我们来详细看一下3%阈值究竟怎么来的。

安捷致善内部培训之——不同OTU聚类算法比较研究

安捷致善内部培训之——不同OTU聚类算法比较研究

  在OTU出现之前,新物种的定义需要考虑DNA之间的相似性,即大于等于70%的相似性。这个是基于整个DNA序列来说的,OTU只是16s序列,怎么对应到16S距离呢。

安捷致善内部培训之——不同OTU聚类算法比较研究

  接下来这篇文章给出了答案,在当时已经鉴定出的在种(species)水平下的的微生物序列,DNA间相似性在70%以上的,大多数16s序列间的距离是大于97%的。这就是97%阈值的由来。而且这3%(~41个)的差异性碱基并不是均匀分布在16s序列中,主要分布在可变区域。

安捷致善内部培训之——不同OTU聚类算法比较研究

  自此以后,3%的阈值用作种(species)的鉴定就这样一直用到现在,进而推广到5%是属(genus)水平下的聚类。甚至都推到20%是门水平下的界定。

  以上就是OTU以及OTU聚类时3%阈值的由来。既然OTU在微生物16S序列分析中这么重要,那就有很多OTU聚类算法,所以接下来给大家介绍一些OTU聚类方法。

2
OTU聚类相关算法

  为了形象的了解不同OTU聚类算法,我用这张图来给大家展示。以时间轴为坐标画出不同OTU聚类算法的发表时间。最早的是2001年提出的FastGroup软件,在二代测序出现之前,只是对桑格测序法测的序列进行聚类,是一种启发式聚类算法。然后是2005年的DOTUR。常用的聚类算法UCLUST是2010年提出来的。大部分聚类算法是在2010之后,主要是二代测序技术应用越来越广泛,产生了大量的16s序列。在这些算法中,我用绿色代表启发式聚类算法,用橘色代表层次聚类算法,蓝色代表其他(数学模型、复杂网络)OTU聚类算法。可以看出启发式和层次聚类算法还是占多数。

安捷致善内部培训之——不同OTU聚类算法比较研究


  尽管有这么多OTU聚类算法,但是常用的也就那么几个。这是我选出几个常见的OTU聚类算法统计的引用率,是在谷歌学术上的引用量。可以看出UCLUST、mothur和CD-HIT引用率碾压后面几个算法。

安捷致善内部培训之——不同OTU聚类算法比较研究

OTU聚类算法比较

  在了解了OTU聚类算法之后,每个方法都有自己的聚类策略,不同的方法聚类结果是不一样的。接下来看一下OTU聚类方法间的比较。


  OTU聚类算法比较主要从以下三个方面进行比较:运行速度,内存消耗和聚类结果。

  这是几个方法的运行时间比较,对于大量16S序列数据,只能用启发式聚类算法。可以看出CD-HIT和UCLUST、DBH比较快,之间差别不是很大,可以轻松处理大规模序列。

安捷致善内部培训之——不同OTU聚类算法比较研究


  接下来看一下内存消耗,CD-HIT、UCLUST、DBH、DySC四个方法的内存消耗明显低于ESPRIT-Tree算法。

安捷致善内部培训之——不同OTU聚类算法比较研究

  最重要是聚类结果,而聚类结果主要从以下三个方面进行比较:(1)OTUs个数;(2)聚类精度;(3)鲁棒性(序列误差,序列次序影响)。


  我们首先看一下OTU聚类个数,这是在用一组全长16s序列做的比较,6中方法,前三个是层次聚类算法,后两个启发式聚类算法。这是在不同相似性阈值条件下的OTU个数。总体来看六个方法的趋势都是一样,随着相似性的增大,OTU数量越来越多。这主要是因为相似性越大,相当于条件越严格,满足的序列就越少,自然每个序列都是一个OTU。

安捷致善内部培训之——不同OTU聚类算法比较研究

  接下来看一下OTU大小情况,在97%相似性阈值下的OTU大小分布。可以看出包含更多序列的OTU个数较少。右下图看出只包含一条序列的OTU占大多数,包含100条序列的OTU个数占比很小。

安捷致善内部培训之——不同OTU聚类算法比较研究

  除了OTU个数,聚类精度主要用NMI(normalized mutual information)值来度量。这是5个方法的聚类精度,是在属的水平下的NMI值比较,可以看出聚类精度随着相似性的减小,NMI值先增大,然后再变小,在92%相似性条件下达到最大值。

安捷致善内部培训之——不同OTU聚类算法比较研究

  最后我们来看一下鲁棒性,也就是算法的抗干扰能力,对于OTU聚类算法来说就是序列顺序和序列误差。我们把数据集随机打乱10次,求NMI值的平均值和方差。可以看出算法除了DySc算法,序列次序对其他方法没影响,这主要是由于这些方法在聚类之前对序列做了排序。 

安捷致善内部培训之——不同OTU聚类算法比较研究

(随机打乱10次的NMI值和标准差)

  再看一下序列误差的影响。对测试数据集加噪声,即序列误差,看一下在不同序列误差下的聚类结果。横坐标是序列误差,纵坐标是OTU数量,可以看出随着误差的变大,OTU个数都在增加,只是增加的程度不同。

安捷致善内部培训之——不同OTU聚类算法比较研究

4
OTU算法总结   

  针对OTU聚类算法之间的比较,可以看出不同方法聚类结果不同,主要原因在于:1)每个方法序列间的距离计算标准不一样;2)聚类策略不一样,有的启发式,有的层次聚类。对于新的OTU聚类算法,需要在聚类精度、运行时间和内存消耗三个方面来比较。

 本期培训在热烈的讨论声中告一段落,感谢卫博给我们带来这么精彩的培训,小伙伴们是否也受益匪浅呢?

安捷致善内部培训之——不同OTU聚类算法比较研究

下周同一时间,等你呦!


参考文献:

1.      Wei Z G, Zhang S W. DBH: A de Bruijn graph-based heuristic method for clustering large-scale 16S rRNA sequences into OTUs[J]. Journal of Theoretical Biology, 2017, 425: 80-87.

2.      Wei Z G, Zhang S W, Zhang Y Z. DMclust, a Density‐based Modularity Method for Accurate OTU Picking of 16S rRNA Sequences[J]. Molecular Informatics, 2017.

3.      Wei Z G, Zhang S W. MtHc: a motif-based hierarchical method for clustering massive 16S rRNA sequences into OTUs[J]. Molecular biosystems, 2015, 11(7): 1907-1913.

4.      Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.

5.      Li W, Godzik A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006, 22(13): 1658-1659.

6.      Schmidt T S B, Matias Rodrigues J F, Mering C. Limits to robustness and reproducibility in the demarcation of operational taxonomic units[J]. Environmental microbiology, 2015, 17(5): 1689-1706.



安捷致善简介


  安捷致善医学数据科技有限公司,致力于集成临床医学,生物信息学,高性能计算和人工智能等前沿技术,构建疾病预防、诊断、治疗及愈后评估的智慧医疗平台。公司紧贴临床需求,提供二代/三代测序技术在人类健康与微生态研究方面的专业科技服务解决方案。公司研发团队通过深度分析、整合基因测序结果和临床数据,针对人类重大慢病,罕见病、传染病,开发有效的辅助诊断方法,优化治疗方案,以严谨的科学精神和专业的技能助力精准医疗。安捷致善将持续研发更加安全便捷的智慧医疗产品,致力于实践臻于至善的企业价值观,为数据时代人类的健康保驾护航。

  公司现已在上海和广州组建了分公司。公司核心技术团队成员分别来自海内外知名高校和科研机构,专业背景涵盖了临床医学、微生物学、分子生物学、生物信息学、应用数学和机器学习等多个领域。整个团队50%以上成员拥有博士学历,硕士以上学历超过70%。团队成员已在Nature、Science、Nature Genetics、Nature Communications、Genome Biology、PNAS等国际知名期刊发表多篇文章。


项目咨询请联系service@anjiemed.com


安捷致善期待与您合作


潘旭兰   文案、编辑

配图来源于网络,侵删



专业:为你设计专业的实验方案、研究思路

快速:分布式流程快速完成基本分析,更多精力投入数据挖掘

深入:不同软件、不同方法、不同视角为您提供个性化分析内容

安捷致善 | 肠道健康的守护者

以上是关于安捷致善内部培训之——不同OTU聚类算法比较研究的主要内容,如果未能解决你的问题,请参考以下文章

聚类算法研究

16、toy数据集上不同聚类算法的比较

三类OTU聚类算法

聚类算法(上)06

颜色迁移之四——模糊聚类(FCM)算法

四种聚类方法之比较