单细胞测序(一)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了单细胞测序(一)相关的知识,希望对你有一定的参考价值。

参考技术A 从一篇文献学起:
Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
参考: http://www.bio-info-trainee.com/3758.html

单细胞测序的两个方向:细胞足够多或基因足够多的。这篇文章细胞数不到1000,但基因数目较为可观。

Cancer-associated fibroblasts (CAFs) / tumor-supportive CAF
(肿瘤相关成纤维细胞)
extracellular matrix (ECM)
epithelial-to-mesenchymal transition (EMT)(转化).
MMTV-PyMT mouse model(自发肿瘤小鼠模型)
single cell differentially expressed genes (SCDE)
reproducibility-optimized test statistic (ROTS)
differentially expressed genes/significantly differentially expressed (SDE)
log2(RPKM + 1)

可以看到SMART-seq2和10x genomics是互相独立的技术。本文使用成熟的单细胞转录组( Smart-seq2 )手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。
Smart-seq2是目前最常用的单细胞转录组技术,最低能够以单个细胞或10pgRNA为模板,通过设计Oligo(dT) VN Primer作为逆转录引物,利用逆转录酶的模板转换(Template-switching)活性,在cDNA的3’端添加一段接头序列,通过该接头序列进行后续PCR扩增,可以获得全长cDNA扩增产物,进行基因表达检测、差异分析、可变剪接、融合基因等遗传调控信息分析。

tips1用STAR软件进行比对,并用外部已经定量过的RNA(spike-in counts)去校正自己的基因表达量(endogenous gene counts)。
tips2共通过2个批次做了768个细胞。
tips3
图g是reads的数量,在极端值(蓝色)部分可以过滤掉。
图h为uniquely mapping reads%,是通过fastqc质控得到的,蓝色部分为质控比对不合格的。
图i是exon mapping reads%,是外显子mapping的百分比,过滤掉30%以下的(reads集中在线粒体等区域)
图j是RPKM,过滤掉表达量低的
图k是correlation,删除掉相关性较低的(通常不这么做)

评估变异系数和混杂因素
图a是变异系数和表达量的关系
图bc是用PCA和tSNE评估混杂因素

主要分析是tSNE,然后挑选first 150 SDE genes绘制热图 - 并且进行 gene ontology (GO) 注释来确定不同组的细胞功能:

上图为716个CAF的tSNE图,下边的每一个基因都是根据这个tSNE图来画的:

接下来GO分析注释细胞亚群的功能。(不放图了)

结合TGCA

单细胞测序数据的差异表达分析方法总结

无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process)。

 

由于单细胞测序技术的局限性,单细胞测序数据通常具有高噪音,有较高的dropout问题,即很多低表达或中度表达的基因无法有效检测到。所以,以前针对传统多细胞转录组测序数据开发的差异表达检测方法或软件不一定完全适用于单细胞测序数据。若想比较不同细胞亚型或不同条件下的细胞表达差异时,为了能得到可靠的结果,需要选定一个好的差异表达分析方法(微信公众号:AIPuFuBio)。

 

近年来,有不少专门针对单细胞转录组测序数据的差异表达分析方法相继被开发出来,如MAST (Finak et al., 2015)、SCDE (Kharchenko et al., 2014)、 DEsingle (Miao et al., 2018)、 Census (Qiu et al., 2017)、 BCseq (Chen and Zheng, 2018)等。具体可以见下表所示:

红线上方是专门针对单细胞测序数据开发的差异表达分析软件或R包,红色下方是针对bulk转录组数据开发的软件或R包

技术图片

 

 

图1、一些比较流行的差异表达分析软件(Chen et al. Frontiers in Genetics, 2019) 


这里要值得提一下SCDE(全名:Single Cell Differential Expression)软件,其属于最早一批专门针对单细胞测序数据开发的差异表达分析软件,地址为:https://hms-dbmi.github.io/scde/。下图是原文章中SCDE与其他传统差异表达分析软件的性能比较,显示SCDE具有不错的性能。

 

技术图片

图2、SCDE与其他软件在单细胞测序数据集上鉴定差异表达基因的性能比较(Kharchenko et al. Nature Methods, 2014)


最近,Wang et al.等人比较了11款经典的软件在单细胞测序测序数据集上的差异表达分析性能,这些软件具体如下表所示:

技术图片

图3、不同差异表达软件的相关信息(Wang et al. BMC Bioinformatics, 2019)

技术图片
图4、不同差异表达软件ROC曲线比较( Wang et al. BMC Bioinformatics, 2019)

技术图片

图5、不同差异表达软件各主要指标的比较( Wang et al. BMC Bioinformatics, 2019)

 

技术图片
图6、不同差异表达软件之间在真实数据集上检测到的差异表达基因比较( Wang et al. BMC Bioinformatics, 2019)。差异表达基因的定义为:adjusted p-value< 0.05

 

技术图片

图7、样本数量对不同差异表达软件各方面性能的影响比较( Wang et al. BMC Bioinformatics, 2019)

 

技术图片

图8、不同差异表达软件鉴定到的top 300个差异表达基因富集的显著KEGG通路数和GO条目数比较( Wang et al. BMC Bioinformatics, 2019) 。(条件:FDR<0.05)


总的来说,不同的差异表达软件有不同的优缺点。有些软件具有高灵敏性,但检测精度却比较低,有些则刚好相反。这11款软件中,DEsingle 和SigEMD这两个方法较好的平衡了差异表达基因检测灵敏性和准确性。值得注意的是,Wang et al. 的比较发现,现在这些专门针对单细胞测序数据开发的差异表达分析软件和传统的方法相比,并没有显示出太多的优势( Wang et al. BMC Bioinformatics, 2019)。这也进一步说明,还需不断开发新的单细胞测序差异表达分析方法,以更好的检测单细胞测序数据的差异表达基因。(更多经典,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com)。笔者建议,做单细胞测序数据的差异表达分析,最好还是选择专门针对单细胞测序数据开发的软件,如SCDE、DEsingle 和SigEMD等。

希望今天的内容对大家有用哦,会持续更新的,欢迎留言~~


参考文献

1. Chen et al. Single-Cell RNA-Seq Technologies and Related Computational Data Analysis,Frontiers in Genetics, 2019

2. Wang et al. Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data, BMC Bioinformatics, 2019

3. Kharchenko et al. Bayesian approach to single-cell differential expression analysis, Nature Methods, 2014

 

以上是关于单细胞测序(一)的主要内容,如果未能解决你的问题,请参考以下文章

科普讲堂啥是单细胞测序?

10X Genomics单细胞转录组测序

单细胞测序方法大比拼

单细胞测序数据的差异表达分析方法总结

NGS原理- 单细胞转录组测序-横评13种单细胞测序以及单细胞核测序方法

技术 单细胞转录组测序之10x Genomics