统计学多因素生存分析中B,SE,Wald是啥意思

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学多因素生存分析中B,SE,Wald是啥意思相关的知识,希望对你有一定的参考价值。

生存分析(Survival analysis)是研究影响因素与生存时间和结局关系的方法。简单的说就是要分析影响因素是否与结局相关,还要分析影响因素与结局出现时间关系。

生存分析中的最主要有以下几个概念:

生存时间(Survival time)是指从某起点事件开始到被观测对象出现终点事件所经历的时间,如从疾病确诊到进展/死亡的时间;生存时间有两种类型:

第一种是完全数据(Complete data),指被观测对象从观察起点到出现终点事件所经历的时间;

第二种是截尾数据(Consored data),截尾数据的产生主要有三个原因,失访(Loss offollow-up)、退出和终止。失访和退出都是在试验还没有结束时,研究者就已经追踪不到数据了,而终止是研究已经结束仍未观察到患者结局。截尾数据过多会影响生存分析的效果。

死亡概率(Mortality probability)是指某段时间开始时生存的个体在该段时间内死亡的可能性大小;

生存概率(Survival probability)是指某段时间开始时存活的个人至该时间结束时仍然存活的可能性大小;

以下我们简单展示两个生存分析常用的方法:Kaplan-Meier曲线和Cox比例风险模型。本次用到的数据和上期logistic用到的数据一样,都是虚构。

一、各变量的含义

二、单因素生存分析

以GeneB单因素分析结果为例:

GeneB突变与未突变两条生存曲线比较的假设检验结果显示,两条曲线差异有统计学意义,表明突变与未突变人群的PFS差异有统计学意义。生存曲线也直观的展示了结果。

所有变量的单因素生存分析结果如下,其中GeneA、GeneB、GeneC均有统计学意义。

三、Cox比例风险回归多因素分析

首先,我们将单因素分析中有意义的三个gene全部放到多因素模型中,并且用年龄和性别做分层。

程序和结果如下:

proc phreg data=survival_cox;

model PFS*Outcome1(0)=GeneA GeneB GeneC/risklimits;

strata age gender;

run;

似然比检验结果显示,加入三个基因后的模型与不加入基因相比,似然比有改善,P值为0.0006,表明模型有统计学意义。但是,在参数估计中我们发现原先在单因素分析中有统计学意义的GeneA和GeneB在多因素分析中不再有统计学意义,且HR接近于1,对PFS的影响很小。

是不是基因之间的交互作用导致了这个结果?我们用加入交互项的方式来分析下。

程序和结果如下:

data survival_cox;

set survival_analysis;

GeneAB=GeneA*GeneB;

GeneAC=GeneA*GeneC;

GeneBC=GeneB*GeneC;

proc phreg data=survival_cox;

model PFS*Outcome1(0)=GeneA GeneC GeneAC/risklimits;

strata age gender;

run;

加入交互项以后,我们看到GeneC有统计学意义,是一个保护性因素,GeneC突变患者发生进展的风险是未突变患者的0.177倍,即未突变患者发生进展的风险是发生进展患者的5.650倍。

GeneA和交互项GeneAC无统计学意义,我们看到交互项的参数估计值为负值,表明GeneA和GeneC有拮抗作用。由于相互作用,单因素分析中GeneA和GeneB掺杂了GeneC的作用,显得有统计学意义,但是多因素分析校正后,变得无统计学意义。

结论:GeneC是疾病进展的一个独立保护性因素,未突变患者进展风险高于突变患者。而GeneA和GeneB对疾病进展的影响均无统计学意义。
参考技术A B是回归系数,SE是标准误,Wald是检验的统计量

单因素统计和多因素回归分析有啥区别

一、概念不同

1、单因素统计:单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。

2、多因素回归分析:指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。

二、方法不同

1、单因素统计:试验单元编号、随机分组。

2、多因素回归分析:引进虚拟变量的回归分析、曲线回归、多元回归模型。

三、应用方向不同

1、单因素统计:单因素的盆栽试验;温室内、实验室内的实验等,应用该设计,若实验中获得的数据各处理重复数相等,采用重复数相等的单因素资料方差分析法分析,若实验中获得的数据各处理重复数不相等,则采用重复数不等的单因素资料方差分析法分析。

2、多因素回归分析:影响因变量的因素有多个,这种多个自变量影响一个因变量的问题可以通过多元回归分析来解决。

例如,经济学知识告诉我们,商品需求量Q除了与商品价格P有关外,还受到替代品的价格、互补品的价格,和消费者收入等因素,甚至还包括商品品牌Brand这一品质变量(品质变量不能用数字来衡量,需要在模型中引入虚拟变量)的影响。

参考资料来源:百度百科- 多元回归分析

参考资料来源:百度百科-单因素分析

参考技术A 先单独分析各个变量对研究因素是否有意义,然后把有意义的进入回归分析。
多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同水平组合之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作用,以及分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同。但也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量,可以是数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因素。本回答被提问者和网友采纳

以上是关于统计学多因素生存分析中B,SE,Wald是啥意思的主要内容,如果未能解决你的问题,请参考以下文章

cox风险比例模型

R语言使用cmprsk包的crr函数进行生存资料的多因素竞争风险分析使用predict.crr函数进行多因素竞争风险模型的预测推理分析

生存曲线(三):统计分析方法这么多,到底选哪个?

怎么在SPSS中做kaplan-meier生存分析

怎么在SPSS中做kaplan-meier生存分析

R语言使用cmprsk包的crr函数进行生存资料的多因素竞争风险分析(Competing Risks Regression)