monocle分析及结果解读

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了monocle分析及结果解读相关的知识,希望对你有一定的参考价值。

参考技术A 近年来,由于细胞的异质性及发育分化等相关的问题越来越被研究者们所关注,单细胞转录组分析为研究异质细胞群的复杂生物学过程提供了方法和工具。每一个细胞进行转录组测序时就是细胞发育过程中的快照,单细胞拟时间分析软件Monocle2是基于R语言的安装包,其功能基于单细胞转录组的表达矩阵,通过无监督学习(Reversed Graph Embedding算法)的方式将细胞置于发育轨迹的不同分支上,从而模拟细胞群体生物学过程。也就是我们经常说的拟时序(pseudotime)分析,又称细胞轨迹(cell trajectory)分析。通过拟时分析可以推断出发育过程细胞的分化轨迹或细胞亚型的演化过程,在发育相关研究中使用频率较高。
模拟细胞的分化轨迹的软件,最常用的软件为Monocle2。该算法不仅能模拟细胞的发育轨迹,同时也能对细胞进行聚类(t-SNE)。通过聚类获得不同状态下的差异基因,分析影响分支形成的关键基因及其功能,对研究相关生物学问题有指导性的作用。
Monocle2主要基于关键基因的表达模式,通过学习每个细胞必须经历的基因表达变化的序列,根据拟时间值中对单个细胞进行排序,模拟出时间发育过程的动态变化。而这个排序技术表现是一种在低维空间排布高维数据的降维技术。(具体描叙请参考: https://www.meiwen.com.cn/subject/zlgsvqtx.html ),目前monocle已经升级至monocle3,但在结果分析上monocle3的可读性不如monocle2,因此本研究中主推monocle2这个版本。
在做拟时序分析之前,先要明白几个研究目的:

先保证服务器上装有R ,我这里安装的版本是version 3.5.1。

对于输入文件,有3种类型的格式:
一种是单细胞运行获得的3个结果文件。格式如下表所示:
准备需要进行拟时间分析数据的三个文件:
1)表达量文件:exprs:基因在所有细胞中的count值矩阵。
格式示例:

注意:该文件的表头必须以“%%**\n%”的形式出现,否则就会出现报错。
2)表型文件 phenoData:
格式示例,该文件即为每个细胞的barcode信息。:

由于seurat软件包的升级,大量的函数命名发生了变化,对2和3这两种类型的版本的操作也是不一样。

Seurat2.4的版本:

Seurat3.0及更高版本:

如果你没有3个标准格式的文件,也没有生成rds文件,仅仅只有表达量矩阵,具体原理和有rds文件一致,可按照如下方法进行处理。

如果你采用的是第二种输入数据进行分析,即使你原先的Seurat对象已经归一化过了,官方推荐在monocle中重新进行归一化处理。

在进行降维聚类之前,我们先获得高表达的基因集作为每个聚类的用来order的Feature基因。当然我们可以使用所有的基因,但一些表达量特别低的基因提供的聚类信号往往会制造分析噪音,Feature基因的选择性很多,一种是我们可以根据基因的平均表达水平来进行筛选,另外我们也可以选择细胞间异常变异的基因。这些基因往往能较好地反映不同细胞的状态。以平均表达量高于0.1来进行筛选。

绘制用于order基因和非order的平均表达量的分布点图。这里不做展示。

对细胞进行聚类,在Seurat中采用的是分辨率来确定cluster的数目。而monocle中可以直接指定聚类数目。主要指出的这里所聚类获得的cluster数目比我们赋值的要少一个。即当num_clusters=3时,你只获得了2个cluster。具体解释有些难懂,在这里不做过多的解释。

拟时间分析不仅是要对分析的细胞群进行排序,还要获得觉得细胞排序的关键基因集。这种基因集有两种情况,在有先验知识的情况下,我们可以从系统生物学的角度获得一系列与细胞发育相关的基因集,从而对细胞进行排序,这种方式是最为保险的,但局限性是对未知的发育情况不能进行分析。另外一种情况就是使用无监督聚类方式计算关键基因集。接下来我们采用differentialGeneTest方式获得clustering_DEG_genes(与聚类相关的差异基因集)

上一步过程是对所有的细胞进行无监督训练,运行时间与细胞数和基因数相关,一般会花很长的时间。可以根据cores的数目进行并行。
differentialGeneTest这个函数测试每个基因的差异表达,取决于伪时间或根据指定的其他协变量。 “ differentialGeneTest”是Monocle的主要差异分析常规, 它接受一个CellDataSet和两个模型公式作为输入,指定由实现的广义谱系模型“ VGAM”包。 也就是说我们可以根据指定’~cluster’或者拟时间值来获得差异基因。差异基因的结果如下表所示:

在这个表格中,我们先看一下表头对应的关键列。第一列没有列名,为基因名称。pval,qval 为差异基因的显著检验打分。num_cells_expressed为表达这个基因的细胞数。use_for_ordering该基因是否是作为排序的差异基因。

根据排序好细胞进行结果可视化。
命令行如下所示:

上述部分结果如下图所示(不包括分面图)

上图表示在主成分中的细胞聚类分布的tsne图。不同颜色代表细胞群的不同细胞命运的分支。

上图表示依据seurat的cluster ID映射到拟时间的排序上。
接下来可视化展示细胞state相关的差异基因的表达量分布情况,可以根据这些基因来确定细胞的发育方向,下图仅展示qvalue值排在前6个基因。横纵左边意义见坐标轴的描述。

在monocle中的分析中发现,细胞群能从一个轨迹分叉成不同的分支点,在科研中,我们会比较关注发生分支的原因是什么,即分析分支点之间的差异。Monocle采用分支表达式分析建模,主要是BEAM函数,可以将分叉过程重构为一个分支轨迹,从而分析不同细胞命运下的差异。
命令行如下:

举个例子:我们分析branch_point = 1这个分支处的细胞命名分叉是如何进行的。

即下图中所示。下图只有1个分支点,即分析state1,2,3 这三个state的差异。

对影响分析的基因根据qvalue进行排序。

绘制与分支相关的基因热图。

关键参数为subset (BEAM_res, qval < 1e-4)),挑选基因进行热图绘制,也可以设置成其他的阈值。
branch_point=1,分支点选为1。num_clusters=4,将基因根据表达相似性分成4个模块。结果如下图所示:

spss回归分析结果解读

请问spss回归分析数据都是怎么看的,谢谢!
以payout(现金股利支付率)为自变
ROA

第一步:首先对模型整体情况进行分析

包括模型拟合情况(R²),是否通过F检验等。

第二步:分析X的显著性

分析X的显著性(P值),如果呈现出显著性,则说明X对Y有影响关系。如果不显著,则应剔除该变量。

第三步:判断X对Y的影响关系方向及影响程度

结合回归系数B值,对比分析X对Y的影响程度。B值为正数则说明X对Y有正向影响,为负数则说明有负向影响。

第四步:写出模型公式

第五步:对分析进行总结

SPSSAU也会提供智能分析建议,方便分析人员快速得出分析结果。

参考技术A 说明一下各个符号,constant的意思是常量,实际上就是回归方程的截距,也就是自变量为0时因变量的取值,如果你的方程是标准化的,且因变量是正态分布的,那么常量会变成0,也就是没有截距。B也就是beta,代表回归系数,标准化的回归系数代表自变量也就是预测变量和因变量的相关,为什么要标准化,因为标准化的时候各个自变量以及因变量的单位才能统一,使结果更精确,减少因为单位不同而造成的误差。T值就是对回归系数的t检验的结果,绝对值越大,sig就越小,sig代表t检验的显著性,在统计学上,sig<0.05一般被认为是系数检验显著,显著的意思就是你的回归系数的绝对值显著大于0,表明自变量可以有效预测因变量的变异,做出这个结论你有5%的可能会犯错误,即有95%的把握结论正确。
回归的检验首先看anova那个表,也就是F检验,那个表代表的是对你进行回归的所有自变量的回归系数的一个总体检验,如果sig<0.05,说明至少有一个自变量能够有效预测因变量,这个在写数据分析结果时一般可以不报告
然后看系数表,看标准化的回归系数是否显著,每个自变量都有一个对应的回归系数以及显著性检验
最后看模型汇总那个表,R方叫做决定系数,他是自变量可以解释的变异量占因变量总变异量的比例,代表回归方程对因变量的解释程度,报告的时候报告调整后的R方,这个值是针对自变量的增多会不断增强预测力的一个矫正(因为即使没什么用的自变量,只要多增几个,R方也会变大,调整后的R方是对较多自变量的惩罚),R可以不用管,标准化的情况下R也是自变量和因变量的相关
标准误表示由于抽样误差所导致的实际值和回归估计值的偏差大小,标准误越小,回归线的代表性越强
希望对您有用
参考技术B R=0.641,说明拟合效果还行,其概率小于0.05,说明方程系数不全为零;各个自变量sig.小于0.05的说明自变量对因变量有显著影响,影响正负你要看系数正负;相反,各个自变量sig.大于0.05的说明自变量对因变量无显著影响。追问

那请问那个F值表示了什么意思?

追答

F值表示什么不用理他,关键看F检验的sig.的大小,跟之前说的一样,概率小于0.05,说明方程系数不全为零。注意这里的系数不是一个变量的系数,是方程中所以变量的系数。不用看F值。

以上是关于monocle分析及结果解读的主要内容,如果未能解决你的问题,请参考以下文章

SDN测量论文粗读9.21

单细胞转录组之拟时序分析

单细胞之富集分析-3:GO和KEGG富集分析及绘图

函数式编程/光学概念,它采用部分对象并使用镜头和遍历返回“填充”对象?

GSEA详细解释及结果解读

spss回归分析结果解读