正态性检验之qqplot和ppplot原理及R语言实现
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正态性检验之qqplot和ppplot原理及R语言实现相关的知识,希望对你有一定的参考价值。
参考技术A输入为一个vector,我们以a <- seq(1, 250, 1)做为示例数据
利用qqnorm函数直接绘制出了如下正态检验qq图
还可以进一步使用qqline命令在qq图上加上标准直线
注:qqline的默认算法为向量a上四分位数和下四分位数对应两个点的连线
Step 1: 首先我们算出vector中每一个数对应的百分位数
在向量a中,数字1对应的累积比例(即小于等于数字1的频率)为1/length(a) = 0.04,数字250对应的累积比例为250/length(a) = 100%
Step 2: 根据累积比例数计算出正态分布对应的百分位数值
直接绘制点图即为qqplot图
Step 3: 可以查看一下q值发现,最后的q值为Inf
这是因为百分位100%对应的正态分布数值为无穷大,所以最后得出的图与R自带的qqnorm的稍微有一点点区别,这是因为在内置的qqnorm函数中对累积百分数进行了调整,为了避免inf的出现,使用 t <- (rank(a) -0.5)/length(a) 调整后得出的结果与qqnorm的结果图就完全一致了。
Step 4: 绘制标准直线
如果是依据标准正态分布做的qq图,则标准直线截距为mean(a),斜率为sd(a)
[图片上传失败...(image-50be7a-1512789490785)]
如果是依据(mean(a), var(a))正态分布做的qq图,则标准直线为y=x
[图片上传失败...(image-4e2370-1512789490785)]
pp plot横轴为实际累积概率,即上文qq plot中的变量t
纵轴为期望累积的概率,标准直线为 y=x
[图片上传失败...(image-682bd0-1512789490785)]
结果大致呈一条直线则说明大致服从正态分布
快速计算累积百分数的方法:
[图片上传失败...(image-de8e63-1512789490785)]
参考:
https://wenku.baidu.com/view/c661ebb365ce050876321319.html
http://data.library.virginia.edu/understanding-q-q-plots/
http://www.cnblogs.com/xianghang123/archive/2012/08/08/2628623.html
https://d.cosx.org/d/18521-18521
多项式回归的正态性检验
【中文标题】多项式回归的正态性检验【英文标题】:Normality test for polynomial regression 【发布时间】:2017-10-29 21:36:04 【问题描述】:在 R 中,我对下面的数据库使用多项式回归。它表明 R2 良好,系数和模型的显着性水平均小于 0.05。但是当使用shapiro.test
测试残差时,p 值为 0.01088,这意味着残差不符合正态分布。所以我想知道多项式回归是否有效。多项式回归的残差必须满足正态性假设吗?
下面附上用于回归的代码和数据。
alloy<-data.frame(
x=c(37.0, 37.5, 38.0, 38.5, 39.0, 39.5, 40.0,
40.5, 41.0, 41.5, 42.0, 42.5, 43.0),
y=c(3.40, 3.00, 3.00, 3.27, 2.10, 1.83, 1.53,
1.70, 1.80, 1.90, 2.35, 2.54, 2.90))
lm.sol=lm(y~x+I(x^2),data=alloy)
summary(lm.sol)
y.res=lm.sol$residuals
shapiro.test(y.res)
【问题讨论】:
【参考方案1】:嗯...这个问题可能属于 stat.exchange,因为它与编程无关。不过,这是我对您的数据的简要介绍。
R2 和shapiro.test
解决了数据和模型拟合的不同特征,因此您可以认为一个是“好”* 而另一个不是(对于“好”和“不”的足够模糊的定义)。
如果您将数据和拟合绘制在同一张图中,那么您会看到二次回归模型很好地捕捉到了总体趋势。
plot(y ~ x, data=alloy)
lines(alloy$x, predict(lm.sol))
模型做得很好。您还可以看到残差的 qq 图表明方差同质性可能存在问题(请参阅最后一个残差)。
qqnorm(resid(lm.sol))
换句话说,残差不一定遵循高斯分布,但可以捕获数据的整体趋势。
这有帮助吗?
【讨论】:
很好的答案!这意味着虽然有时 shapiro.test 对残差的 p 值小于 0.05,但如果该模型的 R2 较高并且满足 t.test 和 F.test 的分别是系数和模型? 另外,在原始模型中,点4的残差最大。所以我删除了这一点,然后建立相同的多项式回归。基于新结果,表明R2增加到0.9402,模型满足t.test和F.test。更重要的是,残差的 shapiro.test 的 p 值也大于 0.05。根据您的建议,我应该在未来的研究中使用哪种模型(原始模型 VS 新模型)? 首先回答您的最后一个问题:如果没有充分的理由,我不会随意删除积分。如果模型不能很好地拟合,那么这是模型的问题 - 而不是数据。换句话说 - 我宁愿在原始数据上使用第一个模型而不是另一个模型。我怀疑拟合曲线会有很大不同。 即使 R2 较低,模型也可以是一个很好的模型(甚至是一个正确的模型) - 请参阅 great post。如果模型提供了对过程的合理抽象,则它可以是“好的”或“相关的”——这完全取决于您要使用该模型的目的。但这个问题确实属于 stats.exchange以上是关于正态性检验之qqplot和ppplot原理及R语言实现的主要内容,如果未能解决你的问题,请参考以下文章
R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性
R语言manova函数多元方差分析(MANOVA)单因素多元方差分析的两个假设是多元正态性和方差-协方差矩阵的齐性QQ图评估多元正态性mvoutlier包中的aq.plot函数检验多变量异常值
R多变量正态性检验(Multivariate Normality Tests)
R语言使用wilcox.test函数进行两组数据的Wilcoxon符号秩检验wilcox.test函数添加paired参数则为Wilcoxon signed rank,当t检验需要的正态性条件不满足