文献速递R包DropletUtils-基于droplet的单细胞转录组数据cell calling方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文献速递R包DropletUtils-基于droplet的单细胞转录组数据cell calling方法相关的知识,希望对你有一定的参考价值。

参考技术A

欢迎关注同名公主号: BBio

10X也是基于此文献的,考古一下,学习区分空载和真实细胞大体思路。

当时已经存在的一些方法会假设含有细胞的GEMs会有更高的UMI总数,并以UMI数目指标筛选细胞,但是这种方法难以区分本就存在的小细胞和空载。

文章开发了一种新方法,首先评估ambiant RNA的表达特征,然后检验每个barcode和ambiant RNA的差异,有显著差异的barcode认为是一个真实的细胞,并结合barcode rank曲线的拐点,保证总UMI数较多的barcode始终保留。

首先确定一个UMI阈值,默认为100,UMI数目低于阈值的定义为ambient RNA。每个droplet中相同基因的UMI数目总和为ambient RNA表达谱中该基因的UMI数目,得到所有基因的UMI数目。使用Good-Turing算法处理,生成每个基因的UMI数目比例的期望值。

假设溶液中的转录本随机的封装到空载中,对于每个droplet来说,每个基因的转录本被抽到的概率和期望值相同。使用Monte Carlo计算每个barcode的p-value。

使用p-value可以筛选和ambient RNA有显著差异的barcode,但是有些情况下还能存在问题。ambient RNA是有很多破裂的细胞组成的,很难代表任何单一的细胞,但是当细胞群高度均匀,或者一个更易裂解的细胞亚群不成比例地贡献ambient RNA时,就可能存在barcode和ambient RNA表达相似。barcode序列测序错误也可能会对ambient RNA的估计产生偏差,原因是将包含细胞的droplet的UMI数错误地分配给具有低UMI总数的barcode。

通过绘制barcode rank plot,并计算曲线的拐点,第一个拐点标志UMI总数从高到低的快速转变。UMI总数较高的barcode都应该认定为是一个真实细胞。以拐点的UMI数为阈值,凡是大于阈值的barcode都认为是一个真实细胞。拐点下方的细胞也能因为和ambient RNA的显著差异认定为细胞,这是其它方法做不到的。

首先cellranger软件expect-cells参数(默认3000)作为期望细胞数,对这些细胞的UMI总数进行排序,并以99%分位数除以10作为UMI阈值。第二步的描述也就和EmptyDrops方法相同了。

补充说明里对于expect-cells参数的选择应该有合理的评估,但评估出准确的阈值似乎很难。当把两个步骤鉴定的细胞数的并集作为最终的细胞时,依赖expect-cells的第一步也显得很重要。当细胞上样量过大或者过小时,需要谨慎选择expect-cells。

模拟10X数据,并绘制barcode rank plot。

测试emptyDrops函数。

以上是关于文献速递R包DropletUtils-基于droplet的单细胞转录组数据cell calling方法的主要内容,如果未能解决你的问题,请参考以下文章

本周最新文献速递20210822

本周最新文献速递20200614

文献速递20200524

文献速递20200524

20200503文献速递

文献速递:神经网络算法&计算化学中从头算镓的成核与相图