当存在平局时如何总结数据集中的前 3 个最高值

Posted

技术标签:

【中文标题】当存在平局时如何总结数据集中的前 3 个最高值【英文标题】:How to summarize the top 3 highest values in a dataset when there are ties 【发布时间】:2019-05-11 17:06:19 【问题描述】:

我有一个数据框 (my_data),并且想要计算仅 3 个最高值的总和,即使可能存在平局。我对 R 很陌生,我使用过 dplyr

A tibble: 15 x 3
   city      month number
   <chr>     <chr>  <dbl>
 1 Lund      jan       12
 2 Lund      feb       12
 3 Lund      mar       18
 4 Lund      apr       28
 5 Lund      may       28
 6 Stockholm jan       15
 7 Stockholm feb       15
 8 Stockholm mar       30
 9 Stockholm apr       30
10 Stockholm may       10
11 Uppsala   jan       22
12 Uppsala   feb       30
13 Uppsala   mar       40
14 Uppsala   apr       60
15 Uppsala   may       30

这是我尝试过的代码:

# For each city, count the top 3 of variable number
my_data %>% group_by(city) %>% top_n(3, number) %>% summarise(top_nr = sum(number))

预期的(想要的)输出是:

# A tibble: 3 x 2
  city      top_nr
  <chr>      <dbl>
1 Lund          86
2 Stockholm     75
3 Uppsala      130

但实际的 R 输出是:

# A tibble: 3 x 2
  city      top_nr
  <chr>      <dbl>
1 Lund          86
2 Stockholm     90
3 Uppsala      160

似乎如果存在平局,则所有平局值都包含在总和中。我只想计算 3 个具有最高值的唯一实例。

任何帮助将不胜感激! :)

【问题讨论】:

您显示的示例和输出数字似乎不同。是否在不同的数据集上 请使用dput 提供您的数据,以便更容易重现问题。 @NelsonGon 我不知道 dput 函数。我以后会用的。 【参考方案1】:

没有top_n(),生活可能会更简单:

dat %>%
  group_by(city) %>%
  summarize(
    top_nr = sum(tail(sort(number), 3))
    )

【讨论】:

哇!非常简洁!但作为一个业余爱好者,我发现这部分:sum(tail(sort(number), 3)),很难理解(即使它很好地解决了这个问题)。 从中间开始sortsnumber升序;之后,tail 返回上一个结果中的 最后 3 个 数字,并将这些数字传递给 sum 函数,该函数将它们相加。 不错!谢谢! :)【参考方案2】:

我们可以使用distinct 来删除重复的元素。 top_n 的工作方式是,如果值重复,它将保留那么多重复行

my_data %>% 
   distinct(city, number, .keep_all = TRUE) %>%
   group_by(city) %>%
   top_n(3, number) %>%
   summarise(top_nr = sum(number))

更新

根据OP的新输出,在top_n输出(不是arranged)之后,得到'number'降序排列,得到前3个'number'的sum

my_data %>% 
   group_by(city) %>% 
   top_n(3, number) %>% 
   arrange(city,  desc(number)) %>% 
   summarise(number = sum(head(number, 3)))
# A tibble: 3 x 2
#  city      number
#  <chr>      <int>
#1 Lund          74
#2 Stockholm     75
#3 Uppsala      130

数据

my_data <- structure(list(city = c("Lund", "Lund", "Lund", "Lund", "Lund", 
"Stockholm", "Stockholm", "Stockholm", "Stockholm", "Stockholm", 
"Uppsala", "Uppsala", "Uppsala", "Uppsala", "Uppsala"), month = c("jan", 
"feb", "mar", "apr", "may", "jan", "feb", "mar", "apr", "may", 
"jan", "feb", "mar", "apr", "may"), number = c(12L, 12L, 18L, 
28L, 28L, 15L, 15L, 30L, 30L, 10L, 22L, 30L, 40L, 60L, 30L)), 
class = "data.frame", row.names = c("1", 
"2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", 
"14", "15"))

【讨论】:

谢谢@akrun,但是当我运行你建议的代码时,我得到了 为什么在这里使用head?我尝试了类似的方法并得到了奇怪的结果。 @NelsonGon 根据新的输出,OP 不会丢弃欺骗,而是只取前 3 个,top_n 给出与欺骗一样多的行 哦,我明白了。谢谢你的解释。 @akrun 不错的解决方案!谢谢!【参考方案3】:

这个tidyverse(实际上是dplyr)解决方案几乎等于akrun's,但filters 是数据帧而不是获取top_n

library(tidyverse)

my_data %>%
  group_by(city) %>%
  arrange(desc(number), .by_group = TRUE) %>%
  filter(row_number() %in% 1:3) %>%
  summarise(top_nr = sum(number))
## A tibble: 3 x 2
#  city      top_nr
#  <chr>      <int>
#1 Lund          74
#2 Stockholm     75
#3 Uppsala      130

【讨论】:

以上是关于当存在平局时如何总结数据集中的前 3 个最高值的主要内容,如果未能解决你的问题,请参考以下文章

返回每个组的最大值,但是当存在平局时,在 MySQL 中返回一个具有较低 id 的值

从教师信息表中检索出工资最高的前3位的教师的信息。(在数据库中怎样查询SQL server)急用

机器学习算法(KNN)

如何判断一个元素是否存在于一个亿级数据集中?

决策树如何计算分裂属性?

在每个 pandas 数据框行中查找前 n 个最高值列的名称