用Scrublet推断单细胞实验中的doublet

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用Scrublet推断单细胞实验中的doublet相关的知识,希望对你有一定的参考价值。

参考技术A 基于液体的单细胞捕获技术的理想情况是一个液滴捕获一个细胞,但通常都会有捕获到双细胞甚至多细胞的情况。一般来说捕获的细胞数越多,概率上越可能遇到两个或多个细胞被包装进同一个droplet中,比如下表所示(来自: http://grcf.jhmi.edu/wp-content/uploads/2016/08/Chromium_SingleCell3.pdf )。

Scrublet是个基于python的预测双细胞的工具,原理如文章中示意图所示。首先定义两种doublet,植入型( embedded)和新表型( neotypic),前者通常是同一细胞类型双细胞,后者是不同细胞类型双细胞,Scrublet算法只用于寻找后者。算法随机抽取成对的barcodes模拟出双细胞加到原表达矩阵中,并对所有细胞(包括模拟出的双细胞)进行聚类。最后根据聚类结果对细胞进行打分(doublet score),可以从示意图上看出细胞的分值和其有关联的模拟双细胞数目成正比,且分值越高越可能是真正的新表型双细胞。

接下来用示例数据跑一下流程。首先加载scrublet及其他需要的python modules。

读入示例数据,是一个有8381个细胞的矩阵。

Counts matrix shape: 8381 rows, 33694 columns
Number of genes in gene list: 33694

建立scrublet对象并计算分数(doublet score)。这里设置doublet rate为6%,参考数值见文章开头的表。

Preprocessing...
Simulating doublets...
Embedding transcriptomes using PCA...
Calculating doublet scores...
Automatically set threshold at doublet score = 0.23
Detected doublet rate = 4.4%
Estimated detectable doublet fraction = 61.0%
Overall doublet rate:
Expected = 6.0%
Estimated = 7.2%
Elapsed time: 9.4 seconds

上面左边的直方图显示实际细胞的分数,右边直方图显示模拟的双细胞的分数。右图中可以看出模拟的双细胞的分数成二项分布,左边的峰代表植入型双细胞分数较低,右边的峰代表新表型双细胞分数较高。利用右图的分布选定分数的阈值,就可以对实际的细胞进行双细胞的标注了。

看一眼效果。看起来有两个cluster是doublet。

把结果输出,然后就可以整合到下游分析中去啦。

Reference:
https://www.cell.com/cell-systems/pdf/S2405-4712(18)30474-5.pdf
https://github.com/AllonKleinLab/scrublet

以上是关于用Scrublet推断单细胞实验中的doublet的主要内容,如果未能解决你的问题,请参考以下文章

贝叶斯分类器(10X单细胞和10X空间转录组的基础算法)

单细胞数据分析中的秩和检验与t检验

10X单细胞 & 10XATAC 联合分析表征细胞调控网络(MIRA)

单细胞笔记2-inferCNV的使用

时间序列的单细胞转录组数据分析

社会经济学中的因果分析思想初探