ItClust:将神经网络的迁移学习用于单细胞RNA测序分析的聚类和细胞类型分类算法
Posted BioArt
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ItClust:将神经网络的迁移学习用于单细胞RNA测序分析的聚类和细胞类型分类算法相关的知识,希望对你有一定的参考价值。
责编 | 兮
单细胞RNA测序技术(scRNA-seq)为细胞生物学和疾病原理研究提供了一个新的方法。在scRNA-seq的分析中, 细胞类型分类是非常重要的步骤。通过鉴定组织中不同的细胞类型,我们可以更好的理解:(1)同一物种不同组织之间细胞类型和功能的差异;(2)同一组织在不同发育阶段的细胞类型的变化;(3)同一组织在健康和疾病状态下细胞类型的差异。
尽管scRNA-seq有着光明的前景,但是单细胞测序技术过程中产生的数据噪音和scRNA-seq数据本身的高维度(测序得到的基因数量往往远高于细胞的数量)使得scRNA-seq的分析变得十分具有挑战性。
随着越来越多的scRNA-seq数据变得可用,许多算法开始利用已标注细胞类型的scRNA-seq数据集中的信息,来帮助分类和标注新的未标注的scRNA-seq数据集。这些已有的算法大多仅仅在已标注的源数据(source dataset)中学习特定细胞类型的基因表达信息,而忽略了目标数据集(target dataset)中的有用信息。
因此, 这些已有的算法十分依赖于源数据集的标注质量,这导致它们对于目标数据中特有的,而源数据中没有的细胞类型无法给出准确的分类。再者,当源数据和目标数据之间存在较强的处理批次效应(batch effect)时, (处理批次效应的产生有很多原因, 例如不同实验室取样方式的不同,测序方法的不同等等, 是一个十分常见的问题)这些已有的算法都表现不佳。
细胞类型分类的理想算法应该能够同时学习源数据集和目标数据集中的基因表达信息,在一定程度上不受处理批次效应的影响, 并且对于目标数据集中特有的,却未出现在源数据集 中的细胞类型也给出准确的分类预测。
迁移学习(transfer learning)是一种机器学习算法,它专注于从已经解决的问题中学习处理方法, 并将学习到的知识利用于解决其他相关的问题,非常适合用于监督式(supervised)的细胞分类。使用监督式预训练进行的迁移学习最初是由Donahue等人提出【1】,他们的研究表明,以完全监督的方式从深度卷积网络(convolutional network)中提取的,用于对象识别任务的特征,可以重新用于类似目的的其他任务。
近日,美国宾夕法尼亚大学Perelman医学院Mingyao Li团队(第一作者为胡健)在Nature Machine Intelligence杂志上发表文章Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis,借鉴上述想法,开发了ItClust【2】,一种将神经网络的迁移学习用于单细胞RNA测序分析的聚类和细胞类型分类的机器学习算法。
ItClust需要两个输入数据集:一个作为源数据的基因表达矩阵, 其中每个细胞都被标注了细胞类型;另一个作为目标数据的基因表达矩阵, 其中所有的细胞都未被标注类型 。图1显示了ItClust算法的主要步骤。
图 1: ItClust 算法介绍
(1)ItClust从构建一个堆叠自编码器(stacked autoencoder)开始,利用该堆叠自编码器以无监督(unsupervised)的方式从源数据中提取并学习细胞类型的基因表达;
(2)当堆叠自编码器学习结束后, ItClust舍弃掉堆叠自编码器的解码器(decoder), 仅保留编码器(encoder), 并在解码器之后接入一个分类层(clustering layer), 组成完整的源分类网络。源分类网络利用源数据集中已有的细胞类型标注,通过监督式学习的方式更进一步的学习源数据中特定细胞类型的基因特点;
(3)构建第二个分类网络,即目标分类网络。目标分类网络拥有和源分类网络同样的结构, 并且源分类网络中的参数将被用于目标分类网络的初始化。这一步骤保证了目标分类网络继承了所有源分类网络已学习到的信息;
(4)最后,完成初始化的目标分类网络再通过无监督的方式从目标数据中学习,微调参数,以便捕获目标数据中特有的细胞类型的基因表达。完成了训练ItClust 网络将能对目标数据集中的细胞作出准确的分类, 并对每个类群所属的细胞类型给出一个置信分数(confidence score), 根据置信分数, 使用者将能判断该类群是否是源数据集中已有的某个细胞类型。
以上的步骤保证了ItCLust能够学习到源数据和目标数据中的信息, 当源数据和目标数据之间存在强烈的批处理效果时,或者当源数据的质量较差时, ItClust任然能够给出较好的分类结果。
为了展示ItClust的优势,研究人员分析了来自不同物种,组织,测序方法的多个scRNA-seq数据集。将ItClust的与Louvain【3】和DESC【4】这两种非监督聚类方法,scVI【5】中实现的一种半监督方法以及 Seurat【6】,Moana【7】和scmap【8】这三种监督分类方法进行了比较 。还将ItClust与SAVER-X【9】(一种用于基因表达去噪的无监督迁移学习算法)进行了比较。结果表明,在聚类和细胞类型分类中,ItClust的性能始终优于这些现有方法。
由于篇幅所限, 在此仅仅展示一部分结果。如图2,展示了 ItClust与半监督和监督方法在人胰岛数据集上的比较,并测试了源数据中缺失细胞类型的对不同分类方法的影响。
通过从源数据中排除四种主要细胞类型(alpha,beta,gamma和delta细胞)。图2b显示,尽管这四种主要的细胞被从源数据集中删除,ItClust对目标数据集的分类仍能达到92%的准确度,并且能够正确分离目标数据集中的这四种细胞。相比之下,Seurat 的准确性大幅度下降至25%, Scmap的准确度降至28%,其中55.0%的细胞(包括大多数alpha,beta ,gamma和 delta细胞)被归类为“未分类”。scVI和Moana 的准确度降至25% 和21%,都将大多数上述四种细胞误分类为epsilon细胞。
ItClust可以分离这些未出现在源数据集中的细胞类型的原因是,在微调步骤中,该算法通过更新网络参数,在目标数据集中捕获了这些缺失的细胞类型的信息。为了更好地说明参数迭代更新过程是如何工作的,以gamma细胞为例。图2d显示了微调之前目标数据中单元格的t-SNE图。蓝色点代表真正的gamma细胞,红色点代表分类中心(cluster centroid),米色点代表其他细胞类型的细胞。由于源数据中不存在gamma细胞,刚完成初始化的目标网络无法分离gamma细胞。因此在t-SNE图中,gamma细胞最初与其他细胞类型混合在一起。但是,在迭代过程中,目标网络开始在目标数据集中学习gamma细胞的信息。随着网络参数的更新,gamma细胞逐渐靠近红色质心,这使gamma细胞远离了其他类型的细胞。经过70次迭代后,gamma细胞与其他细胞完全分离。对于alpha,beta和delta细胞也观察到相似的模式。这些结果表明,对于未出现在源数据集中的细胞类型,如果目标数据集中有足够的信息,ItClust对这些细胞也能完成很好的分类。
图2: ItClust与半监督和监督方法在人胰岛数据集上的比较
综上所述,ItClus是一个强大scRNA-seq聚类和细胞类型分类工具。它能够消除源数据和目标数据之间的强批处理效果的干扰,并且能够分离目标数据集特有的而源数据集没有的细胞类型。此外,它提供有助于细胞类型分配的置信度评分。随着scRNA-seq在生物医学研究中的日益普及,希望ItClust能使研究人员能够准确地对研究中的细胞进行聚类和注释。
附:ItClust的代码:https://github.com/jianhuupenn/ItClust
参考文献
以上是关于ItClust:将神经网络的迁移学习用于单细胞RNA测序分析的聚类和细胞类型分类算法的主要内容,如果未能解决你的问题,请参考以下文章