R组合具有相似值的行

Posted 2023-03-17

技术标签:

【中文标题】R组合具有相似值的行【英文标题】：R combine rows with similar values 【发布时间】：2018-10-23 01:30:29 【问题描述】：

我有一个数据框，行值首先从小到大排序。我计算相邻行之间的行值差异，组合具有相似差异（例如，小于 1）的行，并返回组合行的平均值。我可以使用 for 循环检查每一行的差异，但似乎是一种非常低效的方法。有更好的想法吗？谢谢。

library(dplyr)
DF <- data.frame(ID=letters[1:12],
                 Values=c(1, 2.2, 3, 5, 6.2, 6.8, 7, 8.5, 10, 12.2, 13, 14))
DF <- DF %>%
   mutate(Diff=c(0, diff(Values)))

DF 的预期输出是

ID        Values
a         1.0
b/c       2.6  # (2.2+3.0)/2
d         5.0
e/f/g     6.67 # (6.2+6.8+7.0)/3
h         8.5
i         10.0
j/k       12.6 # (12.2+13.0)/2
i         14.0

【问题讨论】：

您是否正在检查相邻行。不清楚为什么你平均 'b' 和 'c' 因为 Diff 的值都是 1.2 和 0.8 是的，我修改了帖子。 'b' 与 'c' 而不是 'a' 平均，因为 'a' 和 'b' 之间的差大于 1。 【参考方案1】：

library(magrittr)

df <- DF[order(DF$Values),]
df$Values %>% 
  #Find groups for each row
  outer(., ., function(x, y) x >= y & x < y + 1) %>% 
  # Remove sub-groups
  `[<-`(apply(., 1, cumsum) > 1, F) %>%              
  # Remove sub-group columns
  .[, colSums(.) > 0] %>%                            
  # select these groups from data
  apply(2, function(x) data.frame(ID = paste(df$ID[x], collapse = '/')
                                , Values = mean(df$Values[x]))) %>% 
  # bind results by row
  do.call(what = rbind)

# ID    Values
# 1      a  1.000000
# 2    b/c  2.600000
# 4      d  5.000000
# 5  e/f/g  6.666667
# 8      h  8.500000
# 9      i 10.000000
# 10   j/k 12.600000
# 12     l 14.000000

注意：

此方法与使用 diff 的方法不同，因为它仅在所有值彼此相距

例子：

更改数据集，使 ID g 处的值为 7.3。

上述方法：ID e、f、g 不再分组在一起，因为 ID e 处的值是 6.2 和 7.2 - 6.2 > 1。

Diff 方法：ID e、f、g 仍然分组在一起，因为 e 和 f 处的 ID diff

【讨论】：

@Jian 不清楚您希望如何对行进行分组。请参阅我的编辑，了解此解决方案与使用 diff 的解决方案之间的区别【参考方案2】：

计算每一行的Values 之间的差异，并检查它们是否为>= 1。 >=1 的累积总和将为您提供不同的组，其中一个可以summarize 获得所需的结果。

library(dplyr)
DF %>% arrange(Values) %>%
  group_by(Diff = cumsum(c(1,diff(Values)) >= 1) ) %>%
  summarise(ID = paste0(ID, collapse = "/"), Values = mean(Values)) %>%
  ungroup() %>% select(-Diff)

# # A tibble: 8 x 2
# ID    Values
# <chr>  <dbl>
# 1 a       1.00
# 2 b/c     2.60
# 3 d       5.00
# 4 e/f/g   6.67
# 5 h       8.50
# 6 i      10.0 
# 7 j/k    12.6 
# 8 l      14.0

【讨论】：

【参考方案3】：

这是data.table的选项

library(data.table)
setDT(DF)[, .(ID = toString(ID), Values = round(mean(Values), 2)),
          by = .(Diff = cumsum(c(TRUE, diff(Values)>=1)))][, -1, with = FALSE]
#        ID Values
#1:       a   1.00
#2:    b, c   2.60
#3:       d   5.00
#4: e, f, g   6.67
#5:       h   8.50
#6:       i  10.00
#7:    j, k  12.60
#8:       l  14.00

【讨论】：

我已经对 OP 的帖子发表了关于问题清晰度的评论

以上是关于R组合具有相似值的行的主要内容，如果未能解决你的问题，请参考以下文章