如何计算 R 中 data.table 中的出现组合
Posted
技术标签:
【中文标题】如何计算 R 中 data.table 中的出现组合【英文标题】:How to count occurrences combinations in data.table in R 【发布时间】:2014-11-10 05:57:57 【问题描述】:我有两个 data.tables。我想计算与另一个表中的表组合匹配的行数。我检查了 data.table 文档,但没有找到答案。我正在使用 data.table 1.9.2。
DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
# a b
# 1: 3 8
# 2: 2 3
DT2
# w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2
现在我想计算 DT2 中 (3, 8) 对和 (2, 3) 对的数量。
setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3 ## OK !
nrow(DT2[J(2, 3), nomatch=0])
# [1] 1 ## OK !
DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])]
DT1
# a b count_combination_in_dt2
# 1: 3 8 4 ## not ok.
# 2: 2 3 4 ## not ok.
预期结果:
# a b count_combination_in_dt2
# 1: 3 8 3
# 2: 2 3 1
【问题讨论】:
【参考方案1】:setkey(DT2, w, x)
DT2[DT1, .N, by = .EACHI]
# w x N
#1: 3 8 3
#2: 2 3 1
# In versions <= 1.9.2, use DT2[DT1, .N] instead
上面只是简单地进行合并并计算i-expression
定义的每个组的行数,因此by = .EACHI
。
【讨论】:
谢谢!是否可以在 DT1 中分配结果列?我试过 DT2[DT1, count_combination_in_dt2:=.N] 但它不起作用。 DT1[,count:=DT2[DT1, .N][,N]] 工作并且与第一个解决方案相比非常快。【参考方案2】:您只需添加by=list(a,b)
。
DT1[,count_combination_in_dt2:=nrow(DT2[J(a,b),nomatch=0]), by=list(a,b)]
DT1
##
## a b count_combination_in_dt2
## 1: 3 8 3
## 2: 2 3 1
编辑:更多细节:在您的原始版本中,您使用了DT2[DT1, nomatch=0]
(因为您使用了所有a, b
组合。如果您想分别为每个a, b
组合使用J(a,b)
,您需要使用by
参数。data.table
然后按 a, b
分组,nrow(...)
在每个组内进行评估。
【讨论】:
以上是关于如何计算 R 中 data.table 中的出现组合的主要内容,如果未能解决你的问题,请参考以下文章
R:在用户定义的函数中使用 get 和 data.table
如果名称按组的顺序不同,R data.table 分组操作返回错误值?