统计模型的检验

Posted 苑黎

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计模型的检验相关的知识,希望对你有一定的参考价值。

 经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?目前常用有如下方法:
AIC=-2 ln(L) + 2 k  中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k  hannan-quinn criterion

 

1,检验线性回归模型是否合理:

      a,样本呈正态性

      b,看自变量和因变量是否呈线性相关

      c,R2( 相关系数的平方)越接近1,模型拟合程度越高。

 

2,BIC,AIC值

  AIC:Akaike information criterion。衡量统计模型拟合优良性的一种标准,又由与它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

   在一般的情况下,AIC可以表示为: AIC=2k-2ln(L),其中:k是参数的数量,L是似然函数。 假设条件是模型的误差服从独立正态分布。 让n为观察数,RSS为剩余平方和,那么AIC变为: AIC=2k+nln(RSS/n)。

增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。

以上是关于统计模型的检验的主要内容,如果未能解决你的问题,请参考以下文章

Durbin Waston统计+Durbin Waston检验表

计量经济学多元线性回归模型F统计推断,整体显著性检验R ² 越接近于1,是否F统计量趋近无穷??

常用GWAS统计方法和模型简介

R语言偏相关或者部分相关性系数计算实战:通过拟合两个回归模型或者pysch包计算偏相关系数(Partial Correlation)通过方差分析获得偏相关系数的F统计量(偏F检验二型检验)

python数据统计分析

R语言使用car包的outlierTest函数通过假设检验的方法检测回归模型中的异常值(outlier)输出异常值对应的统计量p值以及Bonferonnii校正p值