10X单细胞和空间联合分析的方法---cell2location

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了10X单细胞和空间联合分析的方法---cell2location相关的知识,希望对你有一定的参考价值。

参考技术A

组织中细胞类型的空间位置从根本上塑造了细胞之间的相互作用和功能,but the high-throughput spatial mapping of complex tissues remains a challenge。We present сell2location , a principled and versatile Bayesian model(贝叶斯模型) that integrates single-cell and spatial transcriptomics to map cell types in situ in a comprehensive manner。在准确性和全面性的方面,cell2location的表现优异,In the mouse brain, we use a new paired single nucleus and spatial RNA-sequencing dataset to map dozens of cell types and identify tissue regions in an automated manner。We discover novel regional astrocyte subtypes including fine subpopulations in the thalamus and hypothalamus(新的发现)。In the human lymph node, we resolve spatially interlaced immune cell states and identify co-located groups of cells underlying tissue organisation.(细胞共定位)。我们在空间上绘制罕见的萌发前中心B细胞种群,并预测与干扰素反应相关的推定细胞相互作用。总之方法很好用。
这里我们需要注意的一点就是, 贝叶斯模型 ,这个模型在建模的时候很常用,这里就不多介绍了,推荐大家看一本书《机器学习原理、算法与应用》,书中讲述了很多有关机器学习的算法和基础知识,有利于我们加深生信分析的算法原理。

The cellular architecture of tissues, where distinct cell types are organized in space, underlies cell-cell communication, organ function and pathology.(组织是一个复杂的统一体)。Emerging spatial genomics technologies hold considerable promise for characterising tissue architecture, providing key opportunities to map resident cell types and cell signalling in situ, thereby helping guide in vitro tissue engineering efforts.(空间转录组的主要应用价值)。但是空间转录组仍然存在挑战,One reason is the enormous variation in tissue architecture across organs, ranging from the brain with hundreds of cell types found across discrete anatomical regions to immune organs with continuous cellular gradients and dynamically modified microenvironments。To create and map comprehensive tissue atlases, experimental and computational methods need to be aligned to cope with this variation and in particular, enable mapping numerous resident cell types across diverse and complex tissues in situ.(技术挑战)。
coupled single-cell and spatially resolved transcriptomics offer a scalable approach to address these challenges(单细胞和空间转录组的技术互补)。首先第一步要从解离的组织中识别各种细胞类型(单细胞转录组),然后匹配各个细胞类型的空间位置分布。目前的挑战是First, spatial RNA-seq measurements (i.e. locations) combine multiple cell types as array-based mRNA capture currently do not match cellular boundaries in tissues. Thus, each spatial position corresponds to either several cell types (Visium, Tomo-Seq) or fractions of multiple cell types (Slide-Seq, HDST). Second, spatial RNA-seq measurements are confounded by different sources of variation as 1) cell numbers vary across tissue positions, 2) different cells and cell types differ in total mRNA content, and 3) thin tissue sectioning captures variable fractions of each cell’s volume. Computational approaches need to appropriately model and account for all of these factors。
Here, we present cell2location, a principled and versatile Bayesian model for comprehensive mapping of cell types in spatial transcriptomic data.(我们关注的重点)Cell2location uses reference gene expression signatures of cell types derived from scRNA-seq to decompose multi-cell spatial transcriptomic data into cell type abundance maps(简单的原理与其他方法相同,算法有差异)。The model accurately maps complex tissues, including rare cell types and fine subtypes, and it identifies tissue regions and co-located cell types downstream in an automated manner(能够识别共定位的细胞类型,这个很重要)。下面是两个应用案例,证明这个方法好。

Cell2location maps the spatial distribution of cell types by integrating single-cell RNAseq (scRNA-seq) and multi-cell spatial transcriptomic data from a given tissue。

我们首先解决一下J-S散度和PR曲线。

KL散度又称为相对熵,信息散度,信息增益。KL散度是是两个概率分布P和Q 差别的非对称性的度量。 KL
散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
定义如下:

因为对数函数是凸函数,所以 KL散度的值为非负数。

相对于PR曲线,ROC曲线了解的更多一些,大家可以参考我关于ROC曲线的讲解 深入理解R包AUcell对于分析单细胞的作用 .
而PR曲线

模型的简单介绍
For a complete derivation of the cell2location model, please see supplementary computational methods. Briefly, cell2location is a Bayesian model, which estimates absolute cell density of cell types by decomposing mRNA counts 𝑑 s,g of each gene 𝑔 = 1, . . , 𝐺 at locations 𝑠 = 1, . . , 𝑆 into a set of predefined reference signatures of cell types g f g .For 10X Visium data, this matrix can be directly obtained from the 10X SpaceRanger software and imported into data format used in a popular python package Scanpy(利用scanpy来读取10X分析数据,也可以联合Suerat进行分析)。d s,g should be fltered to a set of genes expressed in the single cell reference g f g .这个地方的处理在于单细胞与空间转录组映射的时候,表达基因的相同。cell2location的图表模型如下图:

10X单细胞转录组整合、转录组 && ATAC整合分析之VIPCCA

参考技术A

单细胞测序在基因调控、细胞分化和细胞多样性研究中具有革命性意义 。 随着近年来技术的显着改进,每个实验检测的单细胞数量呈指数级增长,同时大规模研究产生的数据集也在快速增长和积累。 因此, 当前单细胞研究中的一个主要计算挑战是对来自多个不同样本或跨不同平台和数据类型的测量进行标准化,以进行有效的综合和比较分析 。 这种综合分析需要开发单细胞数据对齐方法,该方法可以消除批次效应并考虑跨数据集的技术噪声。

最近开发了许多单细胞数据对齐方法 。它们中的大多数,除了一些值得注意的例外,例如最近的 iNMF ,都针对小型和中型数据集。这些现有的方法可以概括为四类:(i) 基于参考的方法 ,例如 Scmap-cluster 和 scAlign,它们基于注释良好的参考数据集对齐新的查询数据集; (ii) 基于聚类的方法 ,例如 Harmony 、DESC,它们通过迭代优化聚类目标函数来消除批效应并在嵌入空间中对齐样本; (iii) 基于匹配的方法 ,例如 MNN 和 Scanorama ,它们应用相互最近的邻居策略来识别跨数据集的重叠单元格和 (iv) 基于投影的方法 ,使用统计模型将来自不同数据集的单个细胞投影到较低的维空间,包括对投影应用典型相关分析的 Seurat ,使用来自非负矩阵分解的潜在因子进行投影的 LIGER , and scVI and others that use variational techniques for projection.

然而, 大多数现有的对齐方法都存在固有缺陷,无法成功应用于大型数据集 。具体而言, 基于参考的方法的对齐将受到参考数据大小和参考中可用的预选细胞类型注释的限制,因此当数据大小增加时,可能会导致错过新发现的机会增加 。像 MNN 这样的基于匹配的方法使用往返游走策略,该策略需要为具有两个以上样本的数据集生成所有成对对齐,这对于大样本量来说将是耗时的。具有复杂参数模型的方法(例如 LIGER 和 scAlign)或具有复杂事后数据处理的方法(例如 Seurat )也难以扩展到大型数据集。 基于 ZINB 的方法(例如 scVI)在捕获多个数据集的复杂表达特征方面可能效率较低 。尽管一些现有的最新方法可以扩展到大型数据集,但由于复杂的参数模型,它们仍然有可能不准确地对齐细胞。因此, 迫切需要开发在计算上也有效的有效对齐方法

除了迫切需要开发可扩展的比对方法外,当前比对方法的另一个阻碍问题是它们的性能通常仅使用单细胞 RNA 测序 (scRNA-seq) 数据进行基准测试和优化。 因此,大多数现有的比对方法不适合整合其他单细胞测序数据类型,例如使用测序 (scATAC-seq) 进行转座酶可及染色质的单细胞测定。 此外, 现有的比对方法(如 Seurat)返回的结果只能保留真实的细胞间关系(或相似性),而不能代表基因表达水平,不适合进行差异表达分析或富集分析等下游分析

为了应对这些挑战, 作者提出了一个统一的计算框架 VIPCCA,它基于非线性概率典型相关分析,用于有效且可扩展的单细胞数据对齐 。 VIPCCA 利用来自深度神经网络的尖端技术对单细胞数据进行非线性建模,从而允许用户通过跨技术、数据类型、条件和模式的多个单细胞数据集的集成来捕获复杂的生物结构。此外,VIPCCA 依靠 变分推理 来进行可扩展计算,从而能够将大规模单细胞数据集与数百万个细胞有效集成。重要的是,VIPCCA 可以将多模态转换为低维空间,而无需任何事后数据处理,这是与现有对齐方法形成直接对比的独特且理想的功能。

加载

Loading data

该函数仅适用于 fit_integrate() 函数训练生成的 AnnData。 在基因表达矩阵中随机选择 2000 个位置。 x轴代表这些位置原始数据的表达值,y轴代表同一位置的vipcca整合后数据的表达值。

After filter, we converting Seurat Object to AnnData via h5Seurat using R packages. In this case, the atac.h5ad file will be generated in the corresponding path .

生活很好,有你更好

以上是关于10X单细胞和空间联合分析的方法---cell2location的主要内容,如果未能解决你的问题,请参考以下文章

10X单细胞(10X空间转录组)降维分析之UMAP

10X单细胞(10X空间转录组)多样本批次效应去除分析之RCA2

10X单细胞(10X空间转录组)聚类算法之Louvain

贝叶斯分类器(10X单细胞和10X空间转录组的基础算法)

10X单细胞转录组整合、转录组 && ATAC整合分析之VIPCCA

10X单细胞(10X空间转录组)Seurat分析之QQplot的详细解释及绘制