在列的子集上执行dplyr mutate

Question

我有一个像这样的data.frame（真正的数据集有更多的行和列）

set.seed(15)
dd <- data.frame(id=letters[1:4], matrix(runif(5*4), nrow=4))

#   id        X1        X2        X3        X4        X5
# 1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437
# 2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670
# 3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871
# 4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125

我希望能够编写一个dplyr语句，我可以在其中选择列的子集并对其进行修改。（我正在尝试做类似于在data.table中使用.SDcols的东西）。

对于一个简化的例子，这里是我希望能够编写的函数，用于为保持所有其他列的偶数“X”列的和和平均值添加列。使用基数R的期望输出是

(cols<-paste0("X", c(2,4)))
# [1] "X2" "X4"
cbind(dd,evensum=rowSums(dd[,cols]),evenmean=rowMeans(dd[,cols]))

#   id        X1        X2        X3        X4        X5   evensum  evenmean
# 1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380811
# 2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
# 3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
# 4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478768

但我想用类似dplyr的链来做同样的事情。在一般情况下，我希望能够使用任何select()的辅助函数，如starts_with，ends_with，matches等，以及任何函数。这是我尝试过的

library(dplyr)
partial_mutate1 <- function(x, colspec, ...) {
    select_(x, .dots=list(lazyeval::lazy(colspec))) %>% 
    transmute_(.dots=lazyeval::lazy_dots(...)) %>% 
    cbind(x,.)
}

dd %>% partial_mutate1(num_range("X", c(2,4)), 
    evensum=rowSums(.), evenmean=rowMeans(.))

但是，这会引发错误

Error in rowSums(.) : 'x' must be numeric

这似乎是因为.似乎是指整个date.frame而不是选定的子集。（与rowSums(dd)相同的错误）。但请注意，这会产生所需的输出

partial_mutate2 <- function(x, colspec) {
    select_(x, .dots=list(lazyeval::lazy(colspec))) %>% 
    transmute(evensum=rowSums(.), evenmean=rowMeans(.)) %>% 
    cbind(x,.)
}
dd %>% partial_mutate2(seq(2,ncol(dd),2))

我猜这是某种环境问题？有关如何将参数传递给partial_mutate1的任何建议，以便.将正确地从“select（） - ed”数据集中获取值？

Answer 1

另一答案

Answer 2

另一答案

Answer 3

另一答案