如何在 R 中 dplyr::inner_join 多个 tbls 或 data.frames

Posted

技术标签:

【中文标题】如何在 R 中 dplyr::inner_join 多个 tbls 或 data.frames【英文标题】:how to dplyr::inner_join multi tbls or data.frames in R 【发布时间】:2015-03-30 19:37:23 【问题描述】:

在 R 中,我如何有效地 inner_join 多个 tblsdata.frames?

例如:

devtools::install_github("rstudio/EDAWR")
library(EDAWR)
library(dplyr)
data(songs)
data(artists)
test <- songs
colnames(test) <- c("song2", "name")
inner_join(songs, artists,by="name") %>% inner_join(test,by="name")

我想加入数百个test-like data.frames

【问题讨论】:

【参考方案1】:

您可以收集列表中的数据框并使用Reduce

L <- list(songs, artists, test)
Reduce(inner_join, L)

#   name  plays                song               song2
# 1 John guitar Across the Universe Across the Universe
# 2 John guitar       Come Together Across the Universe
# 3 John guitar Across the Universe       Come Together
# 4 John guitar       Come Together       Come Together
# 5 Paul   bass      Hello, Goodbye      Hello, Goodbye

您可以使用L &lt;- mget(ls())(可选pattern arg 到ls)将所有内容放入列表中。


正如@akrun 在 cmets 中提到的那样,plyr 的替代方案是:

library(plyr)
join_all(L, type='inner')

【讨论】:

手册中的Reduceplyr::join_all 之间存在差异。对,by。这在colnames(test) 与数据歌曲相同时有效。 (不测试!)。在Reduce的情况下,它会使用所有相同的colnames来加入。 这是一个非常好的方法。我想知道您是否可以在Reduce() 中添加joinby 参数。 @jazzurro 好吧,你可以Reduce(function(x, y) inner_join(x, y, by=c('foo' = 'bar')), L),但我认为这需要元素 1 的 by 列是 foo,对于所有后续元素,它是 bar @jbaums 非常感谢您。似乎事先重命名键列(为键列分配相同的列名)有帮助吗? @jazzurro 这对我来说听起来很明智,而且可能就像您可以将所有名称传递给 by 一样简单。

以上是关于如何在 R 中 dplyr::inner_join 多个 tbls 或 data.frames的主要内容,如果未能解决你的问题,请参考以下文章

dplyr:inner_join 与部分字符串匹配

dplyr inner_join 与字符列上的 NA

在r语言中,如何在数列中间插入数据

如何在 ui.R 中读取 TextInput,在 global.R 中使用此值处理查询并使用 Shiny 在 server.R 中显示

在R中如何建立动态的变量名,或者动态的文件名

如何在 R 中读取 Parquet 并将其转换为 R DataFrame?