当数据集的列具有不同的行数时合并它们

Posted 2023-02-16

技术标签:

【中文标题】当数据集的列具有不同的行数时合并它们【英文标题】：Merging columns of dataset when they have diff number of rows 【发布时间】：2014-04-10 14:35:55 【问题描述】：

我需要将两个不同的 data.frames 彼此“合并”，它们的大小不相等但具有相同的唯一标识符 (ID)，并且我想保留较大 data.frame 的行数。

更重要的是，我希望为每个唯一 ID 对 data.frame.1（较大的）中变量 x 的值求和，以便在 data.frame.3（合并数据集）中，变量 x 的每个观察值都是最初在 data.frame.1 中找到的具有相同唯一标识符的观测值的总和。

基本上，我希望我的合并数据集具有我的较小数据集 (data.frame.2) 的行维度 - 即相同的观察数 - 但我希望较大 df (data.frame.1) 中的列合并到较小 df (data.frame.2) 的列中，并且我希望其值按上述方式聚合（总和）。

我希望这很清楚，所以下面的图表更清楚：共有三个唯一 ID (a,b,c)，但在 data.frame.1 中这些重复 - 我希望在合并时对这些重复值求和地点。

ID x data.frame.1
a 1 
a 8 
a 10 
b 2 
b 1 
c 4

ID y data.frame.2
a 3 
b 7 
c 9

ID y x data.frame.3
a 3 19
b 7 3
c 9 4

【问题讨论】：

【参考方案1】：

data.frame1 <- data.frame(ID = c(rep("a",3), rep("b",2), "c"),
                         x = c(1,8,10,2,1,4))
data.frame2 <- data.frame(ID = c("a", "b", "c"),
                         y = c(3, 7, 9))

data.frame1 <- aggregate(x ~ ID, data.frame1, sum)
data.frame3 <- merge(data.frame2, data.frame1, by = "ID")

【讨论】：

以上是关于当数据集的列具有不同的行数时合并它们的主要内容，如果未能解决你的问题，请参考以下文章

在python中通过多个条件合并不同数量的行和列

MSSQL - 有关插入查询如何运行的问题

如何在mysql中对具有不同数据集的列进行排序

当它们具有不同的列集时，按行组合两个数据帧（rbind）

oracle学习之多表查询，子查询以及事务处理

合并具有不同行的熊猫数据框？ [复制]