10X单细胞转录组整合、转录组 && ATAC整合分析之VIPCCA
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了10X单细胞转录组整合、转录组 && ATAC整合分析之VIPCCA相关的知识,希望对你有一定的参考价值。
参考技术A单细胞测序在基因调控、细胞分化和细胞多样性研究中具有革命性意义 。 随着近年来技术的显着改进,每个实验检测的单细胞数量呈指数级增长,同时大规模研究产生的数据集也在快速增长和积累。 因此, 当前单细胞研究中的一个主要计算挑战是对来自多个不同样本或跨不同平台和数据类型的测量进行标准化,以进行有效的综合和比较分析 。 这种综合分析需要开发单细胞数据对齐方法,该方法可以消除批次效应并考虑跨数据集的技术噪声。
最近开发了许多单细胞数据对齐方法 。它们中的大多数,除了一些值得注意的例外,例如最近的 iNMF ,都针对小型和中型数据集。这些现有的方法可以概括为四类:(i) 基于参考的方法 ,例如 Scmap-cluster 和 scAlign,它们基于注释良好的参考数据集对齐新的查询数据集; (ii) 基于聚类的方法 ,例如 Harmony 、DESC,它们通过迭代优化聚类目标函数来消除批效应并在嵌入空间中对齐样本; (iii) 基于匹配的方法 ,例如 MNN 和 Scanorama ,它们应用相互最近的邻居策略来识别跨数据集的重叠单元格和 (iv) 基于投影的方法 ,使用统计模型将来自不同数据集的单个细胞投影到较低的维空间,包括对投影应用典型相关分析的 Seurat ,使用来自非负矩阵分解的潜在因子进行投影的 LIGER , and scVI and others that use variational techniques for projection.
然而, 大多数现有的对齐方法都存在固有缺陷,无法成功应用于大型数据集 。具体而言, 基于参考的方法的对齐将受到参考数据大小和参考中可用的预选细胞类型注释的限制,因此当数据大小增加时,可能会导致错过新发现的机会增加 。像 MNN 这样的基于匹配的方法使用往返游走策略,该策略需要为具有两个以上样本的数据集生成所有成对对齐,这对于大样本量来说将是耗时的。具有复杂参数模型的方法(例如 LIGER 和 scAlign)或具有复杂事后数据处理的方法(例如 Seurat )也难以扩展到大型数据集。 基于 ZINB 的方法(例如 scVI)在捕获多个数据集的复杂表达特征方面可能效率较低 。尽管一些现有的最新方法可以扩展到大型数据集,但由于复杂的参数模型,它们仍然有可能不准确地对齐细胞。因此, 迫切需要开发在计算上也有效的有效对齐方法 。
除了迫切需要开发可扩展的比对方法外,当前比对方法的另一个阻碍问题是它们的性能通常仅使用单细胞 RNA 测序 (scRNA-seq) 数据进行基准测试和优化。 因此,大多数现有的比对方法不适合整合其他单细胞测序数据类型,例如使用测序 (scATAC-seq) 进行转座酶可及染色质的单细胞测定。 此外, 现有的比对方法(如 Seurat)返回的结果只能保留真实的细胞间关系(或相似性),而不能代表基因表达水平,不适合进行差异表达分析或富集分析等下游分析 。
为了应对这些挑战, 作者提出了一个统一的计算框架 VIPCCA,它基于非线性概率典型相关分析,用于有效且可扩展的单细胞数据对齐 。 VIPCCA 利用来自深度神经网络的尖端技术对单细胞数据进行非线性建模,从而允许用户通过跨技术、数据类型、条件和模式的多个单细胞数据集的集成来捕获复杂的生物结构。此外,VIPCCA 依靠 变分推理 来进行可扩展计算,从而能够将大规模单细胞数据集与数百万个细胞有效集成。重要的是,VIPCCA 可以将多模态转换为低维空间,而无需任何事后数据处理,这是与现有对齐方法形成直接对比的独特且理想的功能。
加载
Loading data
该函数仅适用于 fit_integrate() 函数训练生成的 AnnData。 在基因表达矩阵中随机选择 2000 个位置。 x轴代表这些位置原始数据的表达值,y轴代表同一位置的vipcca整合后数据的表达值。
After filter, we converting Seurat Object to AnnData via h5Seurat using R packages. In this case, the atac.h5ad file will be generated in the corresponding path .
生活很好,有你更好
以上是关于10X单细胞转录组整合、转录组 && ATAC整合分析之VIPCCA的主要内容,如果未能解决你的问题,请参考以下文章