使用dplyr汇总并保持相同的变量名称

Question

我发现data.table和dplyr在尝试做同样的事情时会有不同的结果。我想使用dplyr语法，但让它以data.table的方式进行计算。用例是我想在表格中添加小计。为此，我需要对每个变量进行一些聚合，但是保留相同的变量名称（在转换后的版本中）。 Data.table允许我对变量执行一些聚合并保持相同的名称。然后用同一个变量做另一个聚合。它将继续使用未转换的版本。但是，Dplyr将使用转换后的版本。

在摘要文档中，它说：

# Note that with data frames, newly created summaries immediately
# overwrite existing variables
mtcars %>%
  group_by(cyl) %>%
  summarise(disp = mean(disp), sd = sd(disp))

这基本上是我遇到的问题，但我想知道是否有一个很好的解决方法。我发现的一件事就是将变换后的变量命名为其他东西然后在最后重命名它，但这对我来说并不是很好。如果有一个很好的方法来做小计，那也很好。我环顾了这个网站，没有看到这个确切的情况。任何帮助将不胜感激！

这里我做了一个简单的例子，一次是data.table的结果，一次是dplyr的。我想采用这个简单的表并附加一个小计行，它是感兴趣的列的加权平均值（总计）。

library(data.table)
library(dplyr)

dt <- data.table(Group = LETTERS[1:5],
                 Count = c(1000, 1500, 1200, 2000, 5000),
                 Total = c(50, 300, 600, 400, 1000))
dt[, Count_Dist := Count/sum(Count)]
dt[, .(Count_Dist = sum(Count_Dist), Weighted_Total = sum(Count_Dist*Total))]

dt <- rbind(dt[, .(Group, Count_Dist, Total)],
      dt[, .(Group = "All", Count_Dist = sum(Count_Dist), Total = sum(Count_Dist*Total))])
setnames(dt, "Total", "Weighted_Avg_Total")

dt

df <- data.frame(Group = LETTERS[1:5],
                 Count = c(1000, 1500, 1200, 2000, 5000),
                 Total = c(50, 300, 600, 400, 1000))

df %>%
  mutate(Count_Dist = Count/sum(Count)) %>%
  summarize(Count_Dist = sum(Count_Dist),
            Weighted_Total = sum(Count_Dist*Total))

df %>% 
  mutate(Count_Dist = Count/sum(Count)) %>%
  select(Group, Count_Dist, Total) %>% 
  rbind(df %>%
          mutate(Count_Dist = Count/sum(Count)) %>%
          summarize(Group = "All",
                    Count_Dist = sum(Count_Dist),
                    Total = sum(Count_Dist*Total))) %>% 
  rename(Weighted_Avg_Total = Total)

再次感谢任何帮助！

Answer 1

另一答案