使用 dplyr 管道更改列值

Posted

技术标签:

【中文标题】使用 dplyr 管道更改列值【英文标题】:Change the column values withing dplyr pipes 【发布时间】:2020-06-09 09:59:18 【问题描述】:

我想使用pipe 更改要由index 调用的列的值-

require(dplyr) 
mtcars[, 1] = 4 * mtcars[,2]

我想知道上面的计算是否可以使用pipe来完成

【问题讨论】:

不确定是否可行。阅读this 你可以做类似mtcars[, 1] <- mtcars %>% pull(1) %>% multiply_by(2)的事情。 【参考方案1】:

另一种选择可能是:

mtcars %<>%
 mutate_at(vars(1), ~ !!select(., 2) %>% pull() * 4)

   mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1   24   6 160.0 110 3.90 2.620 16.46  0  1    4    4
2   24   6 160.0 110 3.90 2.875 17.02  0  1    4    4
3   16   4 108.0  93 3.85 2.320 18.61  1  1    4    1
4   24   6 258.0 110 3.08 3.215 19.44  1  0    3    1
5   32   8 360.0 175 3.15 3.440 17.02  0  0    3    2
6   24   6 225.0 105 2.76 3.460 20.22  1  0    3    1
7   32   8 360.0 245 3.21 3.570 15.84  0  0    3    4
8   16   4 146.7  62 3.69 3.190 20.00  1  0    4    2
9   16   4 140.8  95 3.92 3.150 22.90  1  0    4    2
10  24   6 167.6 123 3.92 3.440 18.30  1  0    4    4

【讨论】:

完美!一个快速的问题 - 我们真的需要 '%%' 运算符吗?我发现它同样适用于“%>%”运算符。 如果您想用新结果更新 LHS,那么可以。看看help("%&lt;&gt;%")【参考方案2】:

您可以使用magrittr%&lt;&gt;%

mtcars -> df1

library(dplyr) 
library(magrittr)

df1 %<>% 
  mutate_at(vars(1), list(~ df1[[2]] * 4))

#> # A tibble: 32 x 11
#>      mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#>    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#>  1    24     6  160    110  3.9   2.62  16.5     0     1     4     4
#>  2    24     6  160    110  3.9   2.88  17.0     0     1     4     4
#>  3    16     4  108     93  3.85  2.32  18.6     1     1     4     1
#>  4    24     6  258    110  3.08  3.22  19.4     1     0     3     1
#>  5    32     8  360    175  3.15  3.44  17.0     0     0     3     2
#>  6    24     6  225    105  2.76  3.46  20.2     1     0     3     1
#>  7    32     8  360    245  3.21  3.57  15.8     0     0     3     4
#>  8    16     4  147.    62  3.69  3.19  20       1     0     4     2
#>  9    16     4  141.    95  3.92  3.15  22.9     1     0     4     2
#> 10    24     6  168.   123  3.92  3.44  18.3     1     0     4     4
#> # ... with 22 more rows

【讨论】:

这太棒了。但是,当我将 df1[[2]] 更改为 .[[2]] 时,我得到了有线结果。知道如何解决这个问题吗? @Bogaso inside mutate_at 当您使用 . 时,它指的是vars,而不是原始数据集。当您使用.[[2]] 时,您实际上指的是vars(1) 的第二行(即df1[1,2])。 @M-- 如果你有group_by,那么你使用df1[[2]]。我尝试使用.data[[2]],但它不起作用,因为.data 似乎是mutate_all 中的列 @M-- 但是,它也可以用.data 完成,唯一的问题是.data 需要带有.data[[ 的列名(.data[[2]] 正在返回对我来说是错误的。不确定是功能还是错误)。在开发版mtcars %&gt;% group_by(vs) %&gt;% mutate(across(cols = c(1), ~ mean(.data[[names(mtcars)[2]]]))) @akrun 我以为你想避免在管道中使用mtcars(即 LHS 名称)。你是对的,.data 按你的方式工作 :)

以上是关于使用 dplyr 管道更改列值的主要内容,如果未能解决你的问题,请参考以下文章

对于高基数分组,为啥使用 dplyr 管道 (%>%) 比等效的非管道表达式慢?

dplyr 管道中嵌套函数的执行顺序

使用管道运算符时将 dplyr 重命名应用于所有列

作为 dplyr 管道的一部分,将中间输出分配给 temp 变量

如何从 dplyr 管道中的函数中提取多个值

dplyr:在 group_by 之后汇总内部的管道