用Scrublet推断单细胞实验中的doublet
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用Scrublet推断单细胞实验中的doublet相关的知识,希望对你有一定的参考价值。
参考技术A 基于液体的单细胞捕获技术的理想情况是一个液滴捕获一个细胞,但通常都会有捕获到双细胞甚至多细胞的情况。一般来说捕获的细胞数越多,概率上越可能遇到两个或多个细胞被包装进同一个droplet中,比如下表所示(来自: http://grcf.jhmi.edu/wp-content/uploads/2016/08/Chromium_SingleCell3.pdf )。Scrublet是个基于python的预测双细胞的工具,原理如文章中示意图所示。首先定义两种doublet,植入型( embedded)和新表型( neotypic),前者通常是同一细胞类型双细胞,后者是不同细胞类型双细胞,Scrublet算法只用于寻找后者。算法随机抽取成对的barcodes模拟出双细胞加到原表达矩阵中,并对所有细胞(包括模拟出的双细胞)进行聚类。最后根据聚类结果对细胞进行打分(doublet score),可以从示意图上看出细胞的分值和其有关联的模拟双细胞数目成正比,且分值越高越可能是真正的新表型双细胞。
接下来用示例数据跑一下流程。首先加载scrublet及其他需要的python modules。
读入示例数据,是一个有8381个细胞的矩阵。
Counts matrix shape: 8381 rows, 33694 columns
Number of genes in gene list: 33694
建立scrublet对象并计算分数(doublet score)。这里设置doublet rate为6%,参考数值见文章开头的表。
Preprocessing...
Simulating doublets...
Embedding transcriptomes using PCA...
Calculating doublet scores...
Automatically set threshold at doublet score = 0.23
Detected doublet rate = 4.4%
Estimated detectable doublet fraction = 61.0%
Overall doublet rate:
Expected = 6.0%
Estimated = 7.2%
Elapsed time: 9.4 seconds
上面左边的直方图显示实际细胞的分数,右边直方图显示模拟的双细胞的分数。右图中可以看出模拟的双细胞的分数成二项分布,左边的峰代表植入型双细胞分数较低,右边的峰代表新表型双细胞分数较高。利用右图的分布选定分数的阈值,就可以对实际的细胞进行双细胞的标注了。
看一眼效果。看起来有两个cluster是doublet。
把结果输出,然后就可以整合到下游分析中去啦。
Reference:
https://www.cell.com/cell-systems/pdf/S2405-4712(18)30474-5.pdf
https://github.com/AllonKleinLab/scrublet
以上是关于用Scrublet推断单细胞实验中的doublet的主要内容,如果未能解决你的问题,请参考以下文章