一文解决单细胞亚群注释的所有问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文解决单细胞亚群注释的所有问题相关的知识,希望对你有一定的参考价值。

参考技术A

好久没更新了,上来我得写一个有分量的推文暖暖场。其实细想一下,不能全归因于平时太忙(还是太懒了),因为最近看到其它很多小伙伴做的很好且都在不断更新。其实抽出时间写一写推文对个人整理知识和练习写作能力都是很有帮助的!

Immugent最近一直在做单细胞的课题,期间收集了各种细胞注释的marker基因,本次分享主要就针对这个主题展开。

单细胞测序技术是近十年最火爆的生物学技术之一,它赋予我们在单个细胞水平研究科学问题的能力。虽然单细胞技术目前已经发展的很成熟,商业化的10X平台让很多科研团队有自己做单细胞测序的能力,但是并不是每一项通过单细胞测序得到的结果都能成功发表。我身边就有很多认识的朋友做了单细胞测序,但是没有分析出任何可用的结果,最终砸手里了。

单细胞测序既然是在单个细胞研究科学问题,那就引出了其分析流程中很关键一步--细胞亚群的注释。别小看这简单的一步,它可以说是单细胞测序研究成败的最关键因素之一,因为后续的分析都是基于这一步开展的,如果开头都是错的,那后续分析出的任何结果都是没有意义的。

理论上来说,每一类细胞都有自己独特的标志基因,就像我们做流式一样,根据表达的蛋白来对细胞进行定义,而且既然是单个细胞水平的测序结果,这应该没有什么难度。但和其它技术一样都会有自己的不足,而单细胞测序(10X)同样也有自身解决不了的问题:

如下图是一篇做正常 肾组织 单细胞文献中用到的标志基因:

这两个表已经总结的相当全面了,但是在实际进行细胞亚群注释时应当遵循一定原则,我提供以下思路来进行参考:1. 首先应根据免疫细胞的marker(PTPRC)在全局上定义出免疫细胞和非免疫细胞,因为相对于非免疫细胞,免疫细胞的种类不仅多而且功能各异;2. 其次就是对这两类再细分群,非免疫细胞可分为上皮细胞(EPCAM),内分泌细胞(PECAM1),纤维细胞(FAP)等;免疫细胞可首先区分为天然免疫细胞:NK(NCAM1),Mac(CD68),DC(XCR1),中性粒(MNDA)和肥大细胞(TPSAB1)等;适应性免疫细胞:B细胞(CD19,CD79A)和T细胞(CD3D,CD3E),到这非免疫细胞和天然免疫细胞差不多说完了,下面进一步说下更为复杂的适应性免疫细胞亚群;3. 适应性细胞中的B细胞相对好区分,就是在B细胞群基础上再多区分一群浆细胞(IGKC,MZB1); 最后就说一下这个T细胞,T细胞群的注释可谓是最复杂的,第一步可以简单在大群上区分出3种:CD4 Tconv(CD40LG,MAF), Treg(FOXP3,IL2RA)和CD8 T(GZMB,NKG7)细胞;接下来就需要根据功能状态把CD4 Tconv和CD8 T分为Naive(SELL,CCR7), Effector(PRF1,CCL5),Effector-memory(IL7R,EOMES), Exhausted(LAG3,TIGIT)了。

在对各种细胞亚群进行注释的过程中T细胞的注释是最复杂的,而最最复杂的是对各种CD4 T细胞的注释。正如上面抛出的一个问题所介绍的,因为CD4基因的表达不太容易像CD8A/B那样容易被捕捉到(最新的解释可能是因为CD4分子在实验过程中有内吞现象),因此对CD4 T细胞的亚群注释是难上加难的。但是我这里根据自己免疫学知识来给大家介绍另一种比较靠谱的解决方式,那就是通过各种CD4 T细胞的转录因子来注释。

首先原始的CD4 T细胞在受到TCR信号刺激的情况下会朝着各种CD4 T细胞亚群的方向分化,而这每一种不同亚群的命运是由各种转录因子来决定的,其中最重要的就是 Signal transducer and activator of transcription (STAT)。 从下图我们也可以看到,正是由不同的STAT来诱导CD4 T细胞朝着不同的方向发育,并且相对于其它种类的基因,转录因子的表达更加稳定保守,所以就比较容易被单细胞测序平台所捕获,因此,利用各种CD4 T细胞亚群的表面蛋白联合关键转录因子就能对CD4 T细胞亚群进行更准确的注释。

好了,本次的分享到这就结束了,下次我将继续这篇推文的内容,介绍一下如何利用生信软件,同时利用多种标志基因的综合评分对细胞亚群进行注释,敬请期待!

跟着Cell学单细胞转录组分析(五):单细胞转录组marker基因鉴定及细胞群注释

参考技术A 书接上回( 跟着Cell学单细胞转录组分析(四):单细胞转录组测序UMAP降维聚类 )。完成数据降维和细胞聚类后,最主要的环节和工作就是确定各个细胞群,明确是什么类型的细胞,正群的细胞定群很关键,涉及到整个研究,所以这一步宁愿多费时间,也不要出错。当然,这也不是一蹴而就的,需要反复的确认。

要确定各个群是什么细胞,首先需要了解细胞群的marker基因,因为不同类型的细胞突出 表达的基因也是不同的。这里使用FindAllMarkers鉴定各个细胞群的高表达基因。

Seurat提供了几种函数例如FeaturePlot()、DotPlot()和DoHeatmap(),按照文章中的mrker基因,做一下可视化。

点图:

UMAP图:

热图:

很显然,这些都是默认出图,距离发文章还是有一定距离的,后期我们会专门讲解个性化的修饰,争取可视化更好。

接下来就是细胞定群了,对各个细胞群命名。细胞定群有很多方法,目前也有很多工具,但是依照我的经验,自动定群等一般结果不是完全正确,况且操作复杂,为了保证正确性,最使用的办法还是查询文献定群。定群后,对细胞群重命名。

最后将命名的文件保存,可视化细胞群!在进行下一步工作之前,之后的内容将会是对目前这些图形结果的修饰和个性化可视化!

以上是关于一文解决单细胞亚群注释的所有问题的主要内容,如果未能解决你的问题,请参考以下文章

跟着Cell学单细胞转录组分析(七):细胞亚群分析及细胞互作

单细胞小提琴图+箱型图

R语言实现流式细胞数据分析

单细胞笔记2-inferCNV的使用

SingleR 单细胞细胞类型定义工具

单细胞注释-marker参考