单细胞36计之1瞒天过海---纠结的细胞分群

Posted 2023-03-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了单细胞36计之1瞒天过海---纠结的细胞分群相关的知识，希望对你有一定的参考价值。

参考技术A 36计名称与内容无关，仅为统计顺序。

这是一个广泛而经典问题。就单细胞技术而言，我们常说每个细胞都是不同的，也就是说你总可以分到最细以单细胞为单位，但是这样就失去高通量的意义了。在低通量下，我们可以着眼于单个细胞，现在成千上万的细胞，一个一个看是不切实际的。那么，我的细胞到底分多少个群是合适的？

这个问题表现在Seurat中就是：Finding optimal cluster resolution in Seurat 3? 我们知道，不同的 resolution 参数会带来不同的分群结果。先看一下github上面的回答：

clustree我们之前讲过，可以全局地查看不同分群结果：

在clustree的图中我们看到不同 resolution 的取值情况下分群的关系。既然我们最终是以群为单位来分析的，我们肯定是希望每个群是比较纯的。如图可以看到在倒数第二层级有个亚群来自不同的分群，这有可能是：

这里就带来灵魂拷问了，就拿B细胞来说吧，它本身也是有异质性的啊，那么他的异质性是如何的呢？我们知道，某一类细胞内的异质性一般是要小于细胞群之间的异质性的。所以，拿到这个图我们就可以根据自己带着生物学意义的期望来做一个判断了。

其实，我们也知道分群终究是非监督的，只是数据驱动的，并不掺杂着数据（表达谱）以外的生物学意义。如果抛开这些生物学意义，其实是有一些办法来评价分群结果的：

这些方法也是在做群内和群之间的比较，得出类似群纯度的度量单位来评价分群结果。在不久前张泽民老师团队的一篇文章中提到过一种方法：ROGUE: an entropy-based universal metric for assessing the purity of single cell population。

该方法已被封装为一个R包： https://github.com/PaulingLiu/ROGUE

我们看到已经有不少的方法来做分群的评估了，还有：IKAP—Identifying K mAjor cell Population groups in single-cell RNA-sequencing analysis ：

以上这些方法大同小异，核心的问题是，或者研究者真正关心的是：

正所谓：分析总会有结果，看你敢用不敢用。

原文： Seurat Weekly NO.1 || 到底分多少个群是合适的？！

单细胞36计之5趁火打劫---锚点整合

参考技术A 对两个或多个单细胞数据集的联合分析提出了独特的挑战。特别是，在标准工作流程下，识别多个数据集中存在的细胞群体可能会成问题。Seurat v4包括一组用于匹配（或“对齐”）跨数据集的共享细胞群体的方法。这些方法首先确定处于匹配生物学状态（“锚”）的细胞的跨数据集对，既可以用于校正数据集之间的技术差异（即批效应校正），也可以用于对基因组进行比较性scRNA-seq分析跨实验条件。

下面，我们展示了 Stuart *，Butler *等人，2019中所述的scRNA-seq整合方法，以对处于静止或干扰素刺激状态的人免疫细胞（PBMC）进行比较分析。

以下教程旨在概述使用Seurat集成过程可能进行的复杂细胞类型的比较分析。在这里，我们解决了一些关键目标：

为了方便起见，我们通过 SeuratData 软件包分发此数据集。

然后，我们使用 FindIntegrationAnchors() 函数来识别锚点，该函数将Seurat对象的列表作为输入，并使用这些锚点将两个数据集与集成在一起 IntegrateData() `。

现在，我们可以在所有单元上运行单个集成分析！

为了并排可视化这两个条件，我们可以使用 split.by 参数来显示每个以聚类着色的条件。

为了鉴定在各种条件下保守的规范细胞类型标记基因，我们提供了该 FindConservedMarkers() `功能。此功能对每个数据集/组执行差异基因表达测试，并使用MetaDE R软件包中的荟萃分析方法组合p值。例如，无论簇6中的刺激条件如何，我们都可以计算出保守标记的基因（NK细胞）。

我们可以为每个簇探索这些标记基因，并使用它们将我们的簇注释为特定的细胞类型。

DotPlot() 带有 split.by`参数的函数可用于查看各种条件下的保守细胞类型标记，显示表达水平和表达任何给定基因的簇中细胞的百分比。在这里，我们为14个簇中的每个簇绘制2-3个强标记基因。

现在，我们已经排列了刺激细胞和对照细胞，我们可以开始进行比较分析，并观察刺激引起的差异。广泛观察这些变化的一种方法是绘制受刺激细胞和对照细胞的平均表达，并在散点图上寻找视觉异常值的基因。在这里，我们采用受刺激的和对照的原始T细胞和CD14单核细胞群体的平均表达，并生成散点图，突出显示对干扰素刺激表现出戏剧性反应的基因。

如您所见，许多相同的基因在这两种细胞类型中均被上调，可能代表保守的干扰素应答途径。

因为我们有信心确定出跨条件的常见细胞类型，所以我们可以询问相同条件下不同条件下哪些基因会发生变化。首先，我们在meta.data插槽中创建一列，以保存细胞类型和刺激信息，并将当前标识切换到该列。然后，我们用于 FindMarkers() `查找受激B细胞和对照B细胞之间不同的基因。请注意，此处显示的许多顶级基因与我们之前绘制的核心干扰素应答基因相同。此外，我们看到的像CXCL10的基因对单核细胞和B细胞干扰素的反应也具有特异性，在该列表中也显示出很高的意义。

可视化基因表达中这些变化的另一种有用方法是 split.by 选择 FeaturePlot() 或 VlnPlot() 功能。这将显示给定基因列表的FeaturePlots，并按分组变量（此处为刺激条件）进行划分。诸如CD3D和GNLY之类的基因是典型的细胞类型标记（对于T细胞和NK / CD8 T细胞），实际上不受干扰素刺激的影响，并且在对照组和受刺激组中显示出相似的基因表达模式。另一方面，IFI6和ISG15是核心干扰素反应基因，因此在所有细胞类型中均被上调。最后，CD14和CXCL10是显示细胞类型特异性干扰素应答的基因。CD14单核细胞受刺激后，CD14表达下降，这可能导致在有监督的分析框架中进行错误分类，从而强调了整合分析的价值。

[图片上传失败...(image-275df6-1615650992246)]

以上是关于单细胞36计之1瞒天过海---纠结的细胞分群的主要内容，如果未能解决你的问题，请参考以下文章