具有多个订单列的 dplyr row_number

Posted

技术标签:

【中文标题】具有多个订单列的 dplyr row_number【英文标题】:dplyr row_number with multiple order columns 【发布时间】:2015-11-19 22:48:33 【问题描述】:

我希望过滤其顺序由两列而不是一列确定的行号:

pg <- src_postgres()
dat <- tbl(pg, 'table')

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(date1, date2) == 1)

这会产生错误:

Error in row_number(date1, date2) : unused argument (date2)

我可以通过重新解决如下所示的问题来完成上述操作而不会出错,但这似乎有点矫枉过正,特别是如果我需要按 3 列以上排序。是否有一些我缺少的 row_number 功能可以减少冗长?

rows <- dat %>%
  group_by(dimension, date1) %>%
  filter(row_number(date2) == 1) %>%
  group_by(dimension) %>%
  filter(row_number(date1) == 1)

【问题讨论】:

【参考方案1】:

怎么样:

dat %>%
  arrange(dimension, date1, date2) %>%
  group_by(dimension) %>%
  filter(1:n() == 1)

【讨论】:

因为我在数据库中进行工作,所以切片功能是不可能的。我将不得不在 ORDER BY 子句中将 row_number 函数与 date1 和 date2 一起使用。 这仍然不起作用。请记住,我不会收集这些数据。我打算使用 dplyr 来操作数据库中的数据。当我 collect() 时,您的解决方案有点工作,但我需要一种方法让 dplyr 为 PostgreSQL 正确构造 OVER 子句。【参考方案2】:

不是很优雅,但很有效:

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(paste0(date1, date2)) == 1L)

【讨论】:

【参考方案3】:

试试这个,应该会有帮助。

row_num <- function(...)
  l <- list(...)
  names(l) <- paste0("col",1:length(l))
  data.frame(l) %>% 
    mutate(org_pos = row_number()) %>%
    arrange(across(names(l))) %>% 
    mutate(pos = row_number()) %>% 
    arrange(org_pos) %>%
    pull(pos)


rows <- dat %>%
  group_by(dimension) %>%
  filter(row_num(date1, date2) == 1)

【讨论】:

以上是关于具有多个订单列的 dplyr row_number的主要内容,如果未能解决你的问题,请参考以下文章

使用dplyr汇总多个列的不同操作

dplyr 创建一个具有其他列的复杂用户定义函数的新列

R语言dplyr包为dataframe添加数据列实战( Add Columns):基于mutate()函数添加一个或者多个数据列(尾部添加头部添加条件生成某个具体数据列的前后)

在 R dplyr 中过滤具有多个条件名称匹配的数据框

如何在 row_number() 列上应用转换

ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) 是不是保留订单?