R - 对每组数据使用不同的模型进行预测和置信区间

Posted

技术标签:

【中文标题】R - 对每组数据使用不同的模型进行预测和置信区间【英文标题】:R - Making predictions and confidence intervals with different models for each group of data 【发布时间】:2020-03-13 02:05:19 【问题描述】:

here 提出了一个非常相似的问题,但我想为置信区间添加列。他们的例子有效:

x <- mtcars %>% 
     group_by(gear) %>% 
     do(model = lm(mpg ~ hp + wt, data = .))

x
Source: local data frame [3 x 2]
Groups: <by row>

# A tibble: 3 x 2
gear model   
* <dbl> <list>  
1     3 <S3: lm>
2     4 <S3: lm>
3     5 <S3: lm>

mtcars %>% 
group_by(gear) %>% 
nest %>% 
inner_join(x) %>% 
mutate(preds = map2(model, data, predict)) %>% 
unnest(data, preds)

这有效,并为mtcars 生成了一个附加列,其中预测值由每个分组的单独模型生成。现在我想做的是包含来自predict()的置信区间列

 mtcars %>% 
 group_by(gear) %>% 
 nest %>% 
 inner_join(x) %>% 
 mutate(preds = map2(model, data, predict, interval = "confidence")) %>% 
 unnest(data, preds)

这会返回错误:

Error in vec_rbind(!!!x, .ptype = ptype) : Internal error in `vec_assign()`: `value` should have been recycled to fit `x`.

错误在最后一行的unnest() 中触发。我认为这个问题与predict() 的输出格式有关,它是一个 3 列数据帧(fit、upr、lwr)。任何帮助将不胜感激!

【问题讨论】:

【参考方案1】:

predict 的输出是一个矩阵,将其转换为数据帧然后unnest

library(tidyverse)

mtcars %>% 
  group_by(gear) %>% 
  nest %>% 
  inner_join(x) %>% 
  mutate(preds = map2(model, data, 
         ~as.data.frame(predict(.x, .y, interval = "confidence")))) %>%
  unnest(cols = c(preds, data))


#   gear   mpg   cyl  disp    hp  drat    wt  qsec    vs    am  carb model    fit   lwr   upr
#   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <list> <dbl> <dbl> <dbl>
# 1     4  21       6 160     110  3.9   2.62  16.5     0     1     4 <lm>    22.0  19.6  24.4
# 2     4  21       6 160     110  3.9   2.88  17.0     0     1     4 <lm>    21.2  19.2  23.2
# 3     4  22.8     4 108      93  3.85  2.32  18.6     1     1     1 <lm>    25.1  23.0  27.1
# 4     4  24.4     4 147.     62  3.69  3.19  20       1     0     2 <lm>    26.0  21.5  30.6
# 5     4  22.8     4 141.     95  3.92  3.15  22.9     1     0     2 <lm>    22.2  19.9  24.4
# 6     4  19.2     6 168.    123  3.92  3.44  18.3     1     0     4 <lm>    17.8  15.1  20.5
# 7     4  17.8     6 168.    123  3.92  3.44  18.9     1     0     4 <lm>    17.8  15.1  20.5
# 8     4  32.4     4  78.7    66  4.08  2.2   19.5     1     1     1 <lm>    28.7  26.6  30.8
# 9     4  30.4     4  75.7    52  4.93  1.62  18.5     1     1     2 <lm>    32.3  29.3  35.3
#10     4  33.9     4  71.1    65  4.22  1.84  19.9     1     1     1 <lm>    30.0  27.5  32.5
# … with 22 more rows

【讨论】:

以上是关于R - 对每组数据使用不同的模型进行预测和置信区间的主要内容,如果未能解决你的问题,请参考以下文章

R中使用emmeans和geepack的每组边际均值和置信水平

R语言GAMLSS模型对艾滋病病例降雪量数据拟合预测置信区间实例可视化

R语言混合时间模型预测对时间序列进行点估计

R线性回归模型构建:残差值回归值预测域置信区间

r语言怎么计算回归模型的置信区间

R中具有置信区间图的线性回归预测