统计诊断问题拾遗

Posted 统计学小王子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计诊断问题拾遗相关的知识,希望对你有一定的参考价值。

目录

1、引言

本文从模型的基本假定出发,讨论相关的统计问题与实践方法。

2、问题集合与讨论

2.1 模型的基本假定都有什么,违背假设的处理思路

模型的基本假定有以下四条:
– 解释变量非随机
– 零均值+等方差+不相关
– 零均值+等方差+不相关+正态
– n>p

2.1.1 假设(1)

针对假设1,一些教材中为了理解起来方便假定非随机,在算概率分布时可以把X当作常数处理。伍德里奇的书《计量经济学导论(第四版)[美]伍德里奇》1中从头到尾就把X当作随机变量来看的,像常数项和一些虚拟变量等也可以当作退化的随机变量来看。
原因一,做回归时需要对Y求条件期望,如果假设X非随机则Y只是关于随机误差的随机变量。
原因二,迎合内生性假设,即协变量与响应变量不相关。
原因三,解决估计系数小样本分布。

> # 验证 beta 的分布
> Betas <- c()
> for(i in 1:50)
+   n = 100
+   set.seed(i)
+   Beta <- 2
+   x1 <- rnorm(n)
+   x2 <- rf(n, 5, 4)
+   erro <- rnorm(n)
+   y1 <- Beta*x1 + erro
+   y2 <-  Beta*x2 + erro
+   Betas <- rbind(Betas,
+   cbind(coef(lm(y1 ~ x1))[2], coef(lm(y2 ~ x2))[2])
+   )
+ 
> shapiro.test(Betas[,1])  # 正态分布

        Shapiro-Wilk normality test

data:  Betas[, 1]
W = 0.97897, p-value = 0.5094

> shapiro.test(Betas[,2])  # F分布

        Shapiro-Wilk normality test

data:  Betas[, 2]
W = 0.91759, p-value = 0.001932

总结: x固定常数时候,参数beta具有好的小样本和大样本性质。不固定时,beta的参数估计和固定时是一样的,但是beta的分布和x有关,无法准确做统计推断。
这里提到了小样本,主要认可的定义有以下两种:
在数理统计中,认为小样本是样本固定,大样本是n趋于无穷。
经济学中,认为小样本是n小于30,大样本是n大于30。

2.1.2 假设(2)-(3)

(1)高斯马尔可夫条件VS正态性假设
正态性假设 = 高斯马尔可夫条件 + 正态分布
(2)零均值
零均值 -> 零中位数 -> 零众数
(3)方差阵
同方差( σ 2 I \\sigma^2I σ2I) -> 异方差( d i a g ( σ 1 2 , σ 2 2 , . . . , σ n 2 ) diag(\\sigma^2_1,\\sigma^2_2,...,\\sigma^2_n) diag(σ12,σ22,...,σn2)) -> 任意方差矩阵( Σ \\Sigma Σ)。
处理方案:BOX-COX、方差稳定性变换、联合均值方差建模、加权最小二乘、联合均值协方差建模、广义最小二乘。

2.1.3 假设(4)

大维统计2

超高维3

2.2方差稳定性变换4

方差稳定性变换的思想是,使得y变换之后的$y'$是具有常数方差。下面是常见的变换。

详细的理论推导见文献4.

2.3 BOX-COX变换lambda的似然估计5

box变换lambda估计的思想是:
– 写出y关于 y λ y^\\lambda yλ的对数似然函数.
– 固定lambda求出beta和sigma2的估计。
– 带入第一步的似然函数得到关于 λ \\lambda λ的截面似然。
– 最大化截面似然。

可以使用R包里的boxcox()函数,car包里的Transformation()以及Box-Tidwell()函数都可以的到变量变换的权重。

2.4 COOK距离阈值的选择

COOK距离可以检测强影响点:Cook距离,或称D统计量,以及变量添加图(added variable plot)。一般来说,Cook’s D值大于4/(n-k -1),则表明它是强影响点,其中n 为样本量大小,k 是预测变量数目。

2.5 加法模式VS乘法模式

加法模型:线性模式(Y = X1 + X2 + … Xp)
乘法模式:交互模式,也称交互项(Y = X1X2X3…Xp)
混合模式:带有交互变量和线性变量。

x1 <- abs(rnorm(n))
x2 <- abs(rnorm(n))
y1 <- x1 + y2
y2 <- x1*x2
car::scatterplotMatrix(cbind(y1,y2,x1,x2,x1+x2,x1*x2))

5、模拟案例推荐

5.1 R语言实战6

5.2 统计建模与R软件7


6、联系我们

希望本文的内容可以帮助到大家,您的批评是我前进的动力,欢迎评论区留言讨论本文的相关内容。
如果想寻求进一步的合作,欢迎移步统计学小王子咨询中心处申请。

参考文献


  1. 计量经济学导论(第四版)[美]伍德里奇. ↩︎

  2. 大维统计分析 ↩︎

  3. 超高维数据特征筛选方法综述_牛勇 ↩︎

  4. 陶会强.方差稳定化变换综述[J].铜陵职业技术学院学报,2010,9(02):55-56+91.DOI:10.16789/j.cnki.1671-752x.2010.02.026. ↩︎ ↩︎

  5. D2344 统计诊断_12173693_北京市:高等教育出版社_2009.03_韦博成,林金官,解锋昌编著. ↩︎

  6. R语言实战(中文完整版) ↩︎

  7. 统计建模与R软件 ↩︎

以上是关于统计诊断问题拾遗的主要内容,如果未能解决你的问题,请参考以下文章

统计诊断问题拾遗

统计诊断问题拾遗

时间序列模型拾遗1统计分布类型,黑天鹅的秘密?

第11章 拾遗4:IPv6

Oracle执行计划突变诊断之统计信息收集问题

JXLS 2.4.0系列教程——拾遗 如何做页面小计