多项式回归的正态性检验

Posted 2023-03-12

技术标签:

【中文标题】多项式回归的正态性检验【英文标题】：Normality test for polynomial regression 【发布时间】：2017-10-29 21:36:04 【问题描述】：

在 R 中，我对下面的数据库使用多项式回归。它表明 R2 良好，系数和模型的显着性水平均小于 0.05。但是当使用shapiro.test 测试残差时，p 值为 0.01088，这意味着残差不符合正态分布。所以我想知道多项式回归是否有效。多项式回归的残差必须满足正态性假设吗？

下面附上用于回归的代码和数据。

alloy<-data.frame(
  x=c(37.0, 37.5, 38.0, 38.5, 39.0, 39.5, 40.0,
      40.5, 41.0, 41.5, 42.0, 42.5, 43.0),
  y=c(3.40, 3.00, 3.00, 3.27, 2.10, 1.83, 1.53,
      1.70, 1.80, 1.90, 2.35, 2.54, 2.90))

lm.sol=lm(y~x+I(x^2),data=alloy)
summary(lm.sol)

y.res=lm.sol$residuals
shapiro.test(y.res)

【问题讨论】：

【参考方案1】：

嗯...这个问题可能属于 stat.exchange，因为它与编程无关。不过，这是我对您的数据的简要介绍。

R2 和shapiro.test 解决了数据和模型拟合的不同特征，因此您可以认为一个是“好”* 而另一个不是（对于“好”和“不”的足够模糊的定义）。

如果您将数据和拟合绘制在同一张图中，那么您会看到二次回归模型很好地捕捉到了总体趋势。

plot(y ~ x, data=alloy)
lines(alloy$x, predict(lm.sol))

模型做得很好。您还可以看到残差的 qq 图表明方差同质性可能存在问题（请参阅最后一个残差）。

qqnorm(resid(lm.sol))

换句话说，残差不一定遵循高斯分布，但可以捕获数据的整体趋势。

这有帮助吗？

【讨论】：

很好的答案！这意味着虽然有时 shapiro.test 对残差的 p 值小于 0.05，但如果该模型的 R2 较高并且满足 t.test 和 F.test 的分别是系数和模型？另外，在原始模型中，点4的残差最大。所以我删除了这一点，然后建立相同的多项式回归。基于新结果，表明R2增加到0.9402，模型满足t.test和F.test。更重要的是，残差的 shapiro.test 的 p 值也大于 0.05。根据您的建议，我应该在未来的研究中使用哪种模型（原始模型 VS 新模型）？首先回答您的最后一个问题：如果没有充分的理由，我不会随意删除积分。如果模型不能很好地拟合，那么这是模型的问题 - 而不是数据。换句话说 - 我宁愿在原始数据上使用第一个模型而不是另一个模型。我怀疑拟合曲线会有很大不同。即使 R2 较低，模型也可以是一个很好的模型（甚至是一个正确的模型） - 请参阅 great post。如果模型提供了对过程的合理抽象，则它可以是“好的”或“相关的”——这完全取决于您要使用该模型的目的。但这个问题确实属于 stats.exchange

以上是关于多项式回归的正态性检验的主要内容，如果未能解决你的问题，请参考以下文章