在嵌套数据列中引导统计数据并以整洁的格式检索结果

Posted 2023-04-12

技术标签:

【中文标题】在嵌套数据列中引导统计数据并以整洁的格式检索结果【英文标题】：Bootsrapping a statistic in a nested data column and retrieve results in tidy format 【发布时间】：2021-10-27 12:17:32 【问题描述】：

我正在尝试以更整洁的方式进行一些引导（我知道如何在 base R 中进行并获得结果，但我想知道如何将所有这些放入更整洁的管道中）。

首先我定义了两个函数。一个用于引导统计数据，一个用于引导程序本身：

library(boot)
library(tidyverse)

share <- function(data, i)

  share_boot <- data[i, ] %>%
    summarize(across(everything(), mean)) %>%
    pivot_longer(everything()) %>%
    summarize(value/sum(value)) %>%
    pull()
  
  return(share_boot)


boot_results <- function(data, statistic, R)

  boot_results_function <- boot(data = data,
                                statistic = statistic,
                                R = R)
  
  return(boot_results_function)

然后我想在一些嵌套数据上引导我的统计数据，我基本上想对每一行进行引导：

# Creating toy data
set.seed(1)
df <- tibble(country = rep(1:3, each = 20),
             group = rep(rep(1:2, each = 10), 3),
             value1 = runif(60),
             value2 = runif(60),
             value3 = runif(60))

# Doing the boostrap and retreiving results
df2 <- df %>%
  group_by(country, group) %>%
  nest(data = -c(country, group)) %>%
  rowwise() %>%
  mutate(results = list(boot_results(data, share, 5))) %>%
  ungroup() %>%
  hoist(., results, "t0", "t") %>%
  select(-results)

这为我提供了 t、t0 和 data 的嵌套列表列。

# A tibble: 6 x 5
  country group data              t0        t            
    <int> <int> <list>            <list>    <list>       
1       1     1 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>
2       1     2 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>
3       2     1 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>
4       2     2 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>
5       3     1 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>
6       3     2 <tibble [10 x 3]> <dbl [3]> <dbl [5 x 3]>

我现在想做几件事：

这三列有点 unnest_longer，所以我最终每个国家/组有三行。从data 列中检索列名。

我可能过于复杂了，但我被困在最后一步，我不知道如何旋转/取消嵌套列表列。

预期结果：

# A tibble: 18 x 5
   country group data_names    t0 t            
     <int> <int> <chr>      <dbl> <list>       
 1       1     1 value1     0.355 <dbl [5 x 1]>
 2       1     1 value2     0.329 <dbl [5 x 1]>
 3       1     1 value3     0.315 <dbl [5 x 1]>
 4       1     2 value1     0.324 <dbl [5 x 1]>
 5       1     2 value2     0.361 <dbl [5 x 1]>
 6       1     2 value3     0.315 <dbl [5 x 1]>
 7       2     1 value1     0.320 <dbl [5 x 1]>
 8       2     1 value2     0.310 <dbl [5 x 1]>
 9       2     1 value3     0.371 <dbl [5 x 1]>
10       2     2 value1     0.360 <dbl [5 x 1]>
11       2     2 value2     0.386 <dbl [5 x 1]>
12       2     2 value3     0.254 <dbl [5 x 1]>
13       3     1 value1     0.368 <dbl [5 x 1]>
14       3     1 value2     0.319 <dbl [5 x 1]>
15       3     1 value3     0.314 <dbl [5 x 1]>
16       3     2 value1     0.263 <dbl [5 x 1]>
17       3     2 value2     0.293 <dbl [5 x 1]>
18       3     2 value3     0.443 <dbl [5 x 1]>

【问题讨论】：

对不起，完全忘记了。现在已更新。基本上只有boot和tidyverse。 【参考方案1】：

使用map 提取列名，拆分矩阵列以创建1 列矩阵和unnest 一起。

library(tidyverse)

df2 %>%
  mutate(data = map(data, names), 
         t = map(t, ~map(asplit(.x, 2), matrix, ncol = 1))) %>%
  unnest(c(data, t0, t)) 

#   country group data      t0 t            
#     <int> <int> <chr>  <dbl> <list>       
# 1       1     1 value1 0.355 <dbl [5 × 1]>
# 2       1     1 value2 0.329 <dbl [5 × 1]>
# 3       1     1 value3 0.315 <dbl [5 × 1]>
# 4       1     2 value1 0.324 <dbl [5 × 1]>
# 5       1     2 value2 0.361 <dbl [5 × 1]>
# 6       1     2 value3 0.315 <dbl [5 × 1]>
# 7       2     1 value1 0.320 <dbl [5 × 1]>
# 8       2     1 value2 0.310 <dbl [5 × 1]>
# 9       2     1 value3 0.371 <dbl [5 × 1]>
#10       2     2 value1 0.360 <dbl [5 × 1]>
#11       2     2 value2 0.386 <dbl [5 × 1]>
#12       2     2 value3 0.254 <dbl [5 × 1]>
#13       3     1 value1 0.368 <dbl [5 × 1]>
#14       3     1 value2 0.319 <dbl [5 × 1]>
#15       3     1 value3 0.314 <dbl [5 × 1]>
#16       3     2 value1 0.263 <dbl [5 × 1]>
#17       3     2 value2 0.293 <dbl [5 × 1]>
#18       3     2 value3 0.443 <dbl [5 × 1]>

【讨论】：

谢谢，这看起来很整洁。但是，t 列仍然是 5x3，我需要它们 5x1。不幸的是，将t 添加到 unnest 会引发错误。 Error: In row 1, can't recycle input of size 3 to size 5. 对不起，我错过了那部分。尝试更新的答案。谢谢。效果很好。但我松了一口气，这不仅仅是我错过的一些非常简单的事情（查看您的嵌套地图以及 asplit）。我实际上考虑的方式是使用一些连续的 pivot_longer 命令，但是由于我的真实数据使用了 ~1000 次复制，并且我有 ~100 个国家/组组合，因此最大。旋转所有内容后的长度将是几百万行。很高兴有一种更“直接”的方式。 @RonakShah 有没有办法手动进行此引导（没有boot()）但仍坚持使用 tidyverse？

以上是关于在嵌套数据列中引导统计数据并以整洁的格式检索结果的主要内容，如果未能解决你的问题，请参考以下文章