统计诊断问题拾遗
Posted 统计学小王子
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计诊断问题拾遗相关的知识,希望对你有一定的参考价值。
目录
1、引言
本文从模型的基本假定出发,讨论相关的统计问题与实践方法。
2、问题集合与讨论
2.1 模型的基本假定都有什么,违背假设的处理思路
模型的基本假定有以下四条:
– 解释变量非随机
– 零均值+等方差+不相关
– 零均值+等方差+不相关+正态
– n>p
2.1.1 假设(1)
针对假设1
,一些教材中为了理解起来方便假定非随机,在算概率分布时可以把X当作常数处理。伍德里奇的书《计量经济学导论(第四版)[美]伍德里奇》
1中从头到尾就把X当作随机变量来看的,像常数项和一些虚拟变量等也可以当作退化的随机变量来看。
原因一,做回归时需要对Y求条件期望,如果假设X非随机则Y只是关于随机误差的随机变量。
原因二,迎合内生性假设,即协变量与响应变量不相关。
原因三,解决估计系数小样本分布。
> # 验证 beta 的分布
> Betas <- c()
> for(i in 1:50)
+ n = 100
+ set.seed(i)
+ Beta <- 2
+ x1 <- rnorm(n)
+ x2 <- rf(n, 5, 4)
+ erro <- rnorm(n)
+ y1 <- Beta*x1 + erro
+ y2 <- Beta*x2 + erro
+ Betas <- rbind(Betas,
+ cbind(coef(lm(y1 ~ x1))[2], coef(lm(y2 ~ x2))[2])
+ )
+
> shapiro.test(Betas[,1]) # 正态分布
Shapiro-Wilk normality test
data: Betas[, 1]
W = 0.97897, p-value = 0.5094
> shapiro.test(Betas[,2]) # F分布
Shapiro-Wilk normality test
data: Betas[, 2]
W = 0.91759, p-value = 0.001932
总结: x固定常数时候,参数beta具有好的小样本和大样本性质。不固定时,beta的参数估计和固定时是一样的,但是beta的分布和x有关,无法准确做统计推断。
这里提到了小样本
,主要认可的定义有以下两种:
在数理统计中,认为小样本是样本固定,大样本是n趋于无穷。
经济学中,认为小样本是n小于30,大样本是n大于30。
2.1.2 假设(2)-(3)
(1)
高斯马尔可夫条件VS正态性假设
正态性假设 = 高斯马尔可夫条件 + 正态分布
(2)
零均值
零均值 -> 零中位数 -> 零众数
(3)
方差阵
同方差(
σ
2
I
\\sigma^2I
σ2I) -> 异方差(
d
i
a
g
(
σ
1
2
,
σ
2
2
,
.
.
.
,
σ
n
2
)
diag(\\sigma^2_1,\\sigma^2_2,...,\\sigma^2_n)
diag(σ12,σ22,...,σn2)) -> 任意方差矩阵(
Σ
\\Sigma
Σ)。
处理方案:BOX-COX、方差稳定性变换、联合均值方差建模、加权最小二乘、联合均值协方差建模、广义最小二乘。
2.1.3 假设(4)
2.2方差稳定性变换4
方差稳定性变换的思想是,使得y变换之后的$y'$是具有常数方差
。下面是常见的变换。
详细的理论推导见文献4.
2.3 BOX-COX变换lambda的似然估计5
box变换lambda估计的思想是:
– 写出y关于
y
λ
y^\\lambda
yλ的对数似然函数.
– 固定lambda求出beta和sigma2的估计。
– 带入第一步的似然函数得到关于
λ
\\lambda
λ的截面似然。
– 最大化截面似然。
可以使用R包里的boxcox()
函数,car包里的Transformation()
以及Box-Tidwell()
函数都可以的到变量变换的权重。
2.4 COOK距离阈值的选择
COOK距离可以检测强影响点:Cook距离,或称D统计量,以及变量添加图(added variable plot)。一般来说,Cook’s D值大于4/(n-k -1),则表明它是强影响点,其中n 为样本量大小,k 是预测变量数目。
2.5 加法模式VS乘法模式
加法模型:线性模式(Y = X1 + X2 + … Xp)
乘法模式:交互模式,也称交互项(Y = X1X2X3…Xp)
混合模式:带有交互变量和线性变量。
x1 <- abs(rnorm(n))
x2 <- abs(rnorm(n))
y1 <- x1 + y2
y2 <- x1*x2
car::scatterplotMatrix(cbind(y1,y2,x1,x2,x1+x2,x1*x2))
5、模拟案例推荐
5.1 R语言实战6
5.2 统计建模与R软件7
6、联系我们
希望本文的内容可以帮助到大家,您的批评是我前进的动力,欢迎评论区留言讨论本文的相关内容。
如果想寻求进一步的合作,欢迎移步统计学小王子咨询中心处申请。
参考文献
以上是关于统计诊断问题拾遗的主要内容,如果未能解决你的问题,请参考以下文章