当数据集在sparklyr中时,为什么我不能对dplyr使用双冒号运算符?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了当数据集在sparklyr中时,为什么我不能对dplyr使用双冒号运算符?相关的知识,希望对你有一定的参考价值。

一个可重复的例子(改编自@ forestfanjoe的回答):

library(dplyr)
library(sparklyr)
sc <- spark_connect(master = "local")

df <- data.frame(id = 1:100, PaymentHistory = runif(n = 100, min = -1, max = 2))

df <- copy_to(sc, df, "payment")

> head(df)
# Source: spark<?> [?? x 2]
     id PaymentHistory
* <int>          <dbl>
1     1         -0.138
2     2         -0.249
3     3         -0.805
4     4          1.30 
5     5          1.54 
6     6          0.936

fix_PaymentHistory <- function(df){df %>% dplyr::mutate(PaymentHistory = dplyr::if_else(PaymentHistory < 0, 0, dplyr::if_else(PaymentHistory > 1,1, PaymentHistory)))}

df %>% fix_PaymentHistory

错误是:

 Error in dplyr::if_else(PaymentHistory < 0, 0, dplyr::if_else(PaymentHistory >  : 
 object 'PaymentHistory' not found 

我正在使用范围运算符,因为我担心dplyr中的名称会与某些用户定义的代码冲突。请注意,PaymentHistorydf中的列变量。

运行以下代码时不存在相同的错误:

fix_PaymentHistory <- function(df){
    df %>% mutate(PaymentHistory = if_else(PaymentHistory < 0, 0,if_else(PaymentHistory > 1,1, PaymentHistory)))
}
> df %>% fix_PaymentHistory
# Source: spark<?> [?? x 2]
      id PaymentHistory
 * <int>          <dbl>
 1     1         0     
 2     2         0     
 3     3         0     
 4     4         1     
 5     5         1     
 6     6         0.936 
 7     7         0     
 8     8         0.716 
 9     9         0     
10    10         0.0831
# ... with more rows
答案

TL; DR因为您的代码根本不使用dplyr::if_else

sparklyr,当在示例中使用时,将Spark视为另一个数据库并使用dbplyr SQL translation layer发出查询。

在这种情况下,if_else不被视为一个函数,而是一个转换为SQL原语的标识符:

dbplyr::translate_sql(if_else(PaymentHistory < 0, 0,if_else(PaymentHistory > 1,1, PaymentHistory)))
# <SQL> CASE WHEN ("PaymentHistory" < 0.0) THEN (0.0) WHEN NOT("PaymentHistory" < 0.0) THEN (CASE WHEN ("PaymentHistory" > 1.0) THEN (1.0) WHEN NOT("PaymentHistory" > 1.0) THEN ("PaymentHistory") END) END

但是,如果传递完全限定的命名,它将绕过此机制,尝试评估该函数,并最终失败,因为数据库列不在范围内。

我担心dplyr中的名称会与某些用户定义的代码发生冲突。

如你所见,dplyr根本不需要在这里 - 在sparklyr管道中调用的函数要么转换为相应的SQL结构,要么没有特定的转换规则,按原样传递并由Spark解决SQL引擎(此路径用于调用Spark functions)。

当然,这种机制并不特定于sparklyr,您可能会看到使用数据库支持的其他表的相同行为:

library(magrittr)

db <- dplyr::src_sqlite(":memory:", TRUE)
dplyr::copy_to(db, mtcars)

db %>% dplyr::tbl("mtcars") %>% dplyr::mutate(dplyr::if_else(mpg < 20, 1, 0))
Error in dplyr::if_else(mpg < 20, 1, 0) : object 'mpg' not found

以上是关于当数据集在sparklyr中时,为什么我不能对dplyr使用双冒号运算符?的主要内容,如果未能解决你的问题,请参考以下文章

当 XAMPP 不在分区的根目录中时,为啥它不能工作?

使用 sparklyr 时无法在本地 Spark 连接中加载 .csv 数据

为啥 R lubridate::duration 数据类型使用 sparklyr 转换为 spark 中的字符?

Blazor Web 程序集在每个请求中发送数据

同时使用 SparkR 和 Sparklyr

如何在R中使用sparklyr打开“GZ FILE”?