单细胞数据分析中的秩和检验与t检验
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了单细胞数据分析中的秩和检验与t检验相关的知识,希望对你有一定的参考价值。
参考技术A在单细胞数据分析的过程中,寻找差异基因的过程需要用到对基因统计的假设检验(例如函数FindAllMarkers中的test.use参数),我们这里来深入了解一下假设检验的方法和应用环境。
秩和检验适用于广泛的统计学环境,秩和检验是检验总体分布位置是否相同,因而称为非参数检验(Nonparametric test)。秩和检验(rank sum test)是一类常用的非参数检验。秩和检验首先将数据按从小到大或等级从弱到强转换成秩(也就是顺序),然后求秩和并计算秩和统计量,最后做出统计推断。本文简单介绍秩和检验的原理并基于R语言进行秩和检验的操作。
假设我们从总体A和总体B中分别采样n_a和n_b个样本构成样本集合a和b。通过将样本集a和b中的所有样本按从小到大顺序转化为秩之后我们可以通过绘图的方式对转换的结果进行展示,在图中我们使用“•”代表来自样本集a,使用“o”代表数据来自样本集b。
如果总体A和总体B总体分布位置分布相同(H_0:A=B),那么转换的结果如下图所示:
首先是python(范例),借助于python模块scipy来实现。
其次是R的实现:(wilcox.test的函数)
这里可以发现,秩和检验仅仅和数据的总体分布有关,适用于一般的环境 ,在单细胞数据中寻找markergene 的过程中,大部分默认就是采用此方法,当然,这种检验只是一种很常规的检验,离我们真正的数据分析还很遥远。
t检验,亦称student t检验(Student\'s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 [1] t检验是用t分布理论来推论差异发生的 概率 ,从而比较两个平均数的差异是否显著。它与 f检验 、 卡方检验 并列。
这里我们需要注意一下:
(1)t检验对于大样本分布需要转换,而我们单细胞的数据分布属于大样本分布。
(2)数据分布为正态分布,单细胞数据是否为正态分布,在我的文章 单细胞数据分析之PCA再认识与ScaleData函数 做了详细的介绍,大家可以看一下。
t检验最常见的四个用途:
1、 单样本均值检验(One-sample t-test)
用于检验 总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等
2、两独立样本均值检验(Independent two-sample t-test)
用于检验两对独立的正态数据或近似正态的样本的均值是否相等,这里可根据总体方差是否相等分类讨论
3、配对样本均值检验(Dependent t-test for paired samples)
用于检验 一对配对样本的均值的差是否等于某一个值
4、回归系数的显著性检验(t-test for regression coefficient significance)
用于检验回归模型的解释变量对被解释变量是否有显著影响。
单样本T检验用于比较一组数据与一个特定数值之间的差异情况。
应用场景:
某个医生检测40名从事铅作业工人的血红蛋白含量,其均数为130.83g/L,标准差为25.74g/L,试分析从事铅作业的工人血红蛋白含量是否不同于正常成年人平均值140g/L?
我们来看一下这个结果,以p=0.2696,以p=0.05为界,说明没有统计意义。
两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。
2、使用的前提条件
(1)两个样本应该是相互独立的;
(2)样本来自的两个总体应该服从正态分布。
显然单细胞使用的就是两独立样本均值检验。
用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比,配对样本T检验要求样本是配对的。两个样本的样本量要相同;样本先后的顺序是一一对应的。
配对样本t检验用于样品的两个相关组之间的比较手段。在这种情况下,同一样本有两个值(即一对值)。
举个例子,在1个月内有20只小鼠接受了治疗X。我们想知道处理X是否会对小鼠的体重产生影响。
为了回答这个问题,在治疗之前和之后测量了20只小鼠的体重。通过测量相同小鼠体重的两次,我们得到了治疗前的20组值和治疗后的20组值。
在这种情况下,可以使用配对t检验比较治疗前后的平均体重。
似然比(likelihood ratio, LR) 是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值,且非常稳定。似然比的计算只涉及到灵敏度与特异度,不受患病率的影响。因检验结果有阳性与阴性之分,似然比可相应地区分为阳性似然比(positive likelihood ratio, +LR)和阴性似然比(negative likelihood ratio, -LR)。阳性似然比是筛检结果的真阳性率与假阳性率之比。说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数。比值越大,试验结果阳性时为真阳性的概率越大。阴性似然比是筛检结果的假阴性率与真阴性率之比。表示错误判断阴性的可能性是正确判断阴性可能性的倍数。其比值越小,试验结果阴性时为真阴阳性的可能性越大。
似然比检验(likelihood ratio test, LRT) 是一种检验 参数能否反映真实约束 的方法(分布或模型的某参数 θ 等于 θ 0 是否为真实约束)。似然比检验的思想是:“如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在 比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值 。” 可以看出,似然比检验是一种通用的检验方法(比 t 检验、 Κ 2 检验等具有更广的适用范围)。
这个有点难,我们不展开讨论了,主要就是检验分群结果结束以后,基因的表达分布是否是受到约束的
Identifies \'markers\' of gene expression using ROC analysis. For each gene, evaluates (using AUC) a classifier built on that gene alone, to classify between two groups of cells. An AUC value of 1 means that expression values for this gene alone can perfectly classify the two groupings (i.e. Each of the cells in cells.1 exhibit a higher level than each of the cells in cells.2). An AUC value of 0 also means there is perfect classification, but in the other direction. A value of 0.5 implies that the gene has no predictive power to classify the two groups. Returns a \'predictive power\' (abs(AUC-0.5) * 2) ranked matrix of putative differentially expressed genes.
关于roc的讲解在我的文章里 深入理解R包AUcell对于分析单细胞的作用 详细提到过,大家可以看一下。
R语言与统计-1:t检验与秩和检验
参考技术A一般根据数据是否符合正态分布,选择合适的统计方法:
T检验,亦称student t检验(Student\'s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率, 从而比较两个平均数的差异是否显著。 它与 Z检验 、 卡方检验 并列。
其他进行正态性检验的函数 (如下函数都属于nortest包)
Lillie.test()
ad.test()
cvm.test()
pearson.test()
sf.test()
不同的函数可能会得到不同的结果。
对于不服从正态分布的数据,可以采用一些方法使它服从正态分布。
var.test只能用于两样本方差齐性检验
当数据不满足正态分布的时候,要进行t检验必须进行原始数据的变换。如取log,平方根,倒数, boxCox转换 等。
Wilcox秩和检验(又称Mann-Whitney U检验)是对原假设的非参数检验,在不需要假设两组样本数据为正态分布的情况下,测试二者数据分布是否存在显著差异,此检验适用于数据分布属于非正态性的分析对象,其适用范围相较于t检验广泛。
执行wilcoxon秩和检验(也称Mann-Whitney U检验)这样一种非参数检验 。t检验假设两个样本的数据集之间的差别符合正态分布(当两个样本集都符合正态分布时,t检验效果最佳),但当服从正态分布的假设并不确定时,我们执行wilcoxon秩和检验来验证数据集中mtcars中自动档与手动档汽车的mpg值的分布是否一致,p值<0.05,原假设不成立。意味两者分布不同。警告“无法精确计算带连结的p值“这是因为数据中存在重复的值,一旦去掉重复值,警告就不会出现。
以上是关于单细胞数据分析中的秩和检验与t检验的主要内容,如果未能解决你的问题,请参考以下文章