基本统计方法的选择与应用

Posted quietwalk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基本统计方法的选择与应用相关的知识,希望对你有一定的参考价值。

一、确定资料的类型:分类资料、定量资料;
 选择适当的统计方法,资料不同,设计不同,采用的分析方法不同;
1、计量资料的比较(比较集中趋势是否不同):
    (1)两组:t检验、Wilcoxon秩和检验 …

     t分布(近似正态分布):用于根据小样本来估计呈正态分布且方差未知的总体的均值。   

定义:假设X服从标准正态分布N(0,1),Y服从 卡方分布,那么 的分布称为自由度为n的t分布,记为

分布密度函数 ,其中,Gam(x)为伽马函数。

 

  如:医保患者与自费患者住院天数是否不同?
资料与设计:两组独立的计量资料比较
统计方法:两独立样本 t 检验(independent samples t-test)
分析结果:t=2.17,P=0.033

参数统计方法(t检验、ANOVA)有应用前提条件:
A:资料满足正态性;
B:比较的各组资料之间方差相等(满足方差齐性)。


(2) 三组(及以上):方差分析、Kruskal-Wallis检验 …

如:医生、护士、医护人员的期望收入指数是否有差别?
资料与设计:三组独立的计量资料比较
统计方法:完全随机设计的方差分析(one-way ANOVA)
分析结果:F=20.89,P<0.0001
结论:有差别。

 

两变量之间关系的分析:
    相关分析、回归分析、秩相关 …
    如研究门急诊量与收入的关系、床位数与护士人数的关系

变化趋势分析:
    Cochran-Armitage趋势检验、卡方检验 …
     如分析两周患病率随年龄变化的趋势

综合评价:
   层次分析法、TOPSIS法、秩和比法 …
    如评价三甲医院医疗质量、综合绩效

示例:

研究医院床位数与护士人数之间是否有相关性。
研究目的:床位数(X)与护士人数(Y)之间是否有关?关系如何(线性、非线性)?关系大小?
                  (由样本推断总体)
资料与设计:来自于同一医院的两个指标
统计方法:
        相关分析(correlaion analysis)衡量两指标之间是否有线性关系,及关系的强度和方向。
        回归分析(regression analysis)定量进行X到Y的量化估计或预测。
变量关系的描述:散点图(scatter plot)
相关分析的结果:r=0.83,P<0.0001   95%CI:(0.61,0.93)
回归分析的结果:Y=-4.84 + 0.36X R平方=0.69
结论:
     1. 可认为床位数与护士人数之间有关,护士人数随床位数的增加而增加。
     2. 实有床位数的信息可以解释注册护士数信息量的69%,还有剩余的31%的信息需通过实有床位数以外的其他因素来解释。

 

2、分类资料

  (1)无序分类资料的比较(比较率或构成是否不同):
       卡方检验、Fisher精确概率法 …

  如:

两样本率的比较(卡方检验)
用抗凝剂和不用抗凝剂治疗急性心肌梗塞患者的生存率是否不同?


P<0.01,按α=0.05水准拒绝H0 ,接受H1 ,可认为用与不用抗凝剂治疗急性心肌梗塞的效果不同,用抗凝剂后的生存率较高。

 

  (2)有序等级资料的比较(比较平均程度、等级是否不同):
       Wilcoxon秩和检验、Kruskal-Wallis检验 …

  如:

比较三家医院门诊候诊时间是否有差别。统计很长,较长,一般,较短,很短有多少例。


资料与设计:三组独立的等级资料比较
统计方法:Kruskal-Wallis秩和检验(Kruskal-Wallis H test)

分析结果:2=7.81,P=0.020
医院1至医院3患者候诊时间的平均秩次分别为:171.06、172.03、142.62
结论:可认为不同医院患者的候诊时间不全相同。医院3最短,尚不能认为医院1与医院2有差别。

----------------------------------------------------------------------------------

 3、多元统计方法的选择与应用
(1)探索影响因素:
多重线性回归、logistic回归 …
如探索影响肺炎患者住院总费用的因素

(2)综合多个指标进行事物的分类或判别:
聚类分析、判别分析 …

(3)多指标的降维及潜在因素的探索:
主成分分析、因子分析 …

(4)预测事物的发展趋势:
指数平滑法、ARIMA预测方法 …

示例:研究目的:住院总费用的影响因素分析(年龄、性别(0-男;1-女)、住院天数、费别(0-自费;1-医保)、入院情况(0-一般;1-急症;2-危重)、所在医院(1-医院1;1-医院2;2-医院3;)、住院总费用)

 


资料与设计:目标指标(应变量)为计量资料
统计方法:多重线性回归(multiple linear regression)
筛选自变量的方法:
 逐步法(stepwise)
 前进法(forward)
 后退法(backward)
 注意:自变量的量化与赋值

 

以上是关于基本统计方法的选择与应用的主要内容,如果未能解决你的问题,请参考以下文章

统计学习方法--机器学习概论

数据统计学习的5个基本流程

统计学习方法 李航 决策树

《统计学习方法》学习笔记之第一章

:Statistics统计工具功能详解与应用

MATLAB数据分析方法的基本信息