在R中合并具有重复的配对列

Posted

技术标签:

【中文标题】在R中合并具有重复的配对列【英文标题】:Merging paired columns with duplication in R 【发布时间】:2022-01-18 17:49:42 【问题描述】:

晚安,我正在处理两种血压(无创和动脉)的数据,每个人的持续时间不同。它有 6 列“id”“begin_time”“end_time”“nibp_time”“nibp_value”“abp_time”“abp_value”。 我使用 difftime() 来降低复杂性。 “nibp_value”或“abp_value”之间的时间间隔为 5 分钟。所以我的数据如下所示。

df <- data.frame(id = c(1,1,1,1,1,1,1,1,2,2,2,2,3,3), 
                 nibp_time = c(0,1,0,1,0,1,0,1,0,1,2,3,NaN,NaN), 
                 nibp_value = c(80,65,80,65,80,65,80,65,95,90,83,89,NaN,NaN),
                 abp_time = c(1,1,2,2,3,3,4,4,NaN,NaN,NaN,NaN,0,1), 
                 abp_value = c(68,68,66,66,70,70,73,73,NaN,NaN,NaN,NaN,88,84))

问题是,有缺失值,我想根据“nibp_time”和“abp_time”合并“nibp_value”和“abp_value”。如果“nibp_time”等于“abp_time”,则应该存储“abp_value”(“abp_value”优先),如下所示。

df2<- data.frame(id = c(1,1,1,1,1,2,2,2,2,3,3),
           bp_time = c(0,1,2,3,4,0,1,2,3,0,1),
           bp_value = c(80,68,66,70,73,95,90,83,89,88,84))

这样我就可以申请了

as.data.table(df2)[, dcast(.SD, id ~ bp_time, value.var = "bp_value")]

使其成为串行格式。

我试过了

df$bp_time <- ifelse(is.na(df$abp_time), df$nibp_time, df$abp_time)

这样,id '1' 在时间 '0' 的值将被消除,因为 abp_time 没有 id '1' 的 '0'。 你能帮我正确合并吗?

【问题讨论】:

【参考方案1】:

16.12 更新:

library(data.table)

df <- data.table(id = c(1,1,1,1,1,1,1,1,2,2,2,2,3,3), 
                 nibp_time = c(0,1,0,1,0,1,0,1,0,1,2,3,NaN,NaN), 
                 nibp_value = c(80,65,80,65,80,65,80,65,95,90,83,89,NaN,NaN),
                 abp_time = c(1,1,2,2,3,3,4,4,NaN,NaN,NaN,NaN,0,1), 
                 abp_value = c(68,68,66,66,70,70,73,73,NaN,NaN,NaN,NaN,88,84))


df[, `:=`(bp_time = ifelse(!is.na(nibp_time) & (nibp_time == 0 | is.na(abp_time)), nibp_time, abp_time),
          bp_value = ifelse(!is.na(nibp_time) & (nibp_time == 0 | is.na(abp_time)), nibp_value, abp_value))]

df2 = unique(df[, c(1,6,7)], by=c("id", "bp_time"))

输出:

> df2
    id bp_time bp_value
 1:  1       0       80
 2:  1       1       68
 3:  1       2       66
 4:  1       3       70
 5:  1       4       73
 6:  2       0       95
 7:  2       1       90
 8:  2       2       83
 9:  2       3       89
10:  3       0       88
11:  3       1       84

验证:

df_check<- data.table(id = c(1,1,1,1,1,2,2,2,2,3,3),
                      bp_time = c(0,1,2,3,4,0,1,2,3,0,1),
                      bp_value = c(80,68,66,70,73,95,90,83,89,88,84))
> df2 == df_check
        id bp_time bp_value
 [1,] TRUE    TRUE     TRUE
 [2,] TRUE    TRUE     TRUE
 [3,] TRUE    TRUE     TRUE
 [4,] TRUE    TRUE     TRUE
 [5,] TRUE    TRUE     TRUE
 [6,] TRUE    TRUE     TRUE
 [7,] TRUE    TRUE     TRUE
 [8,] TRUE    TRUE     TRUE
 [9,] TRUE    TRUE     TRUE
[10,] TRUE    TRUE     TRUE
[11,] TRUE    TRUE     TRUE

【讨论】:

感谢您的快速回复。它产生了类似的结果,但您的第一个解决方案消除了 id “3”,因为它没有 NIBP 值。 .. 更新的解决方案已重复,并且 abp_time 和 nibp_time 相同,只有 abp_value 应该保留并且 nibp_value 被删除...。 id 不应该被删除,因为 bp 属于每个 ids.. 我使用了您更新的解决方案,并从中制作了另一个带有“id”“final_value”和“final_time”的数据框。使用 unique() 作为结果,我得到了我想要的。万分感谢!!!!!! 哦........对不起,我让你感到困惑............ .......... 这不是我想要的。我想将 df 制作为 df2,而不是从 df 和 df2 制作 df3。 T_T 非常感谢您的更新。我认为您的解决方案是最好的,因为我的真实数据很少。谢谢!

以上是关于在R中合并具有重复的配对列的主要内容,如果未能解决你的问题,请参考以下文章

如何在 R 中合并同一数据框中的行(基于特定列下的重复值)?

在 R 中使用合并函数时重复行 - 但我不想要总和

如何合并具有不同列号的两个表,同时删除具有大量列的表的重复项

使用R [重复]进行数据集成

如何在 R 中读取具有重复列的羽毛文件

R的merge怎么出现很多行重复