在双错误类型的连接列中使用 NA 的 data.table 内部/外部连接？

Posted 2023-02-24

技术标签:

【中文标题】在双错误类型的连接列中使用 NA 的 data.table 内部/外部连接？【英文标题】：data.table inner/outer join with NA in join column of type double bug? 【发布时间】：2012-12-14 02:32:19 【问题描述】：

在阅读这篇***文章SQL join 之后，我想清楚地了解如何使用 data.table 进行联接。在这个过程中，我们可能在加入 NA 时发现了一个错误。以wiki为例：

R) X = data.table(name=c("Raf","Jon","Ste","Rob","Smi","Joh"),depID=c(31,33,33,34,34,NA),key="depID")
R) Y = data.table(depID=c(31,33,34,35),depName=c("Sal","Eng","Cle","Mar"),key="depID")
R) X
   name depID
1:  Joh    NA
2:  Raf    31
3:  Jon    33
4:  Ste    33
5:  Rob    34
6:  Smi    34
R) Y
   depID depName
1:    31     Sal
2:    33     Eng
3:    34     Cle
4:    35     Mar

左外连接

R) merge.data.frame(X,Y,all.x=TRUE)
  depID name depName
1    31  Raf     Sal
2    33  Jon     Eng
3    33  Ste     Eng
4    34  Rob     Cle
5    34  Smi     Cle
6    NA  Joh    <NA>

merge.data.table 不输出相同的结果并显示我认为是 lign 2 上的错误。

R) merge(X,Y,all.x=TRUE)
   depID name depName
1:    NA  Joh     Eng
2:    31  Raf      NA
3:    33  Jon     Eng
4:    33  Ste     Eng
5:    34  Rob     Cle
6:    34  Smi     Cle
R) Y[X] #same -> :(
   depID depName name
1:    NA     Eng  Joh
2:    31      NA  Raf
3:    33     Eng  Jon
4:    33     Eng  Ste
5:    34     Cle  Rob
6:    34     Cle  Smi

右外连接 好像一样

R) merge.data.frame(X,Y,all.y=TRUE)
  depID name depName
1    31  Raf     Sal
2    33  Jon     Eng
3    33  Ste     Eng
4    34  Rob     Cle
5    34  Smi     Cle
6    35 <NA>     Mar

R) merge(X,Y,all.y=TRUE)
   depID name depName
1:    NA  Joh     Eng
2:    31   NA     Sal
3:    33  Jon     Eng
4:    33  Ste     Eng
5:    34  Rob     Cle 
6:    34  Smi     Cle
7:    35   NA     Mar

内部（自然）联接

R) merge.data.frame(X,Y)
  depID name depName
1    31  Raf     Sal
2    33  Jon     Eng
3    33  Ste     Eng
4    34  Rob     Cle
5    34  Smi     Cle
R) merge(X,Y)
   depID name depName
1:    NA  Joh     Eng
2:    33  Jon     Eng
3:    33  Ste     Eng
4:    34  Rob     Cle
5:    34  Smi     Cle

【问题讨论】：

【参考方案1】：

一些有用的信息：

library(data.table);

X <- data.table(name=c("Raf","Jon","Ste","Rob","Smi","Joh"),depID=c(31,33,33,34,34,NA),key="depID")
#R) X
   #name depID
#1:  Joh    NA
#2:  Raf    31
#3:  Jon    33
#4:  Ste    33
#5:  Rob    34
#6:  Smi    34

Y <- data.table(depID=c(31,33,34,35),depName=c("Sal","Eng","Cle","Mar"),key="depID")
#R) Y
   #depID depName
#1:    31     Sal
#2:    33     Eng
#3:    34     Cle
#4:    35     Mar

#################
#LEFT OUTER JOIN#
#################
LJ <- merge.data.frame(X,Y,by="depID",all.x=TRUE); #by is implicit (see ?merge.data.frame)
#R) LJ
  #depID name depName
#1    31  Raf     Sal
#2    33  Jon     Eng
#3    33  Ste     Eng
#4    34  Rob     Cle
#5    34  Smi     Cle
#6    NA  Joh    <NA>

LJ2 <- Y[X];
#R) LJ2
   #depID depName name
#1:    NA      NA  Joh
#2:    31     Sal  Raf
#3:    33     Eng  Jon
#4:    33     Eng  Ste
#5:    34     Cle  Rob
#6:    34     Cle  Smi

##################
#RIGHT OUTER JOIN#
##################
RJ <- merge.data.frame(X,Y,by="depID",all.y=TRUE); #by is implicit (see ?merge.data.frame)
#R) RJ 
  #depID name depName
#1    31  Raf     Sal
#2    33  Jon     Eng
#3    33  Ste     Eng
#4    34  Rob     Cle
#5    34  Smi     Cle
#6    35 <NA>     Mar

RJ2 <- X[Y];
#R) RJ2
   #depID name depName
#1:    31  Raf     Sal
#2:    33  Jon     Eng
#3:    33  Ste     Eng
#4:    34  Rob     Cle
#5:    34  Smi     Cle
#6:    35   NA     Mar

#################
#FULL OUTER JOIN#
#################
FJ <- merge.data.frame(X,Y,all=T)
#R) FJ
  #depID name depName
#1    31  Raf     Sal
#2    33  Jon     Eng
#3    33  Ste     Eng
#4    34  Rob     Cle
#5    34  Smi     Cle
#6    35 <NA>     Mar
#7    NA  Joh    <NA>

FJ2 <- merge(X,Y,all=T)
#R) FJ2
   #depID name depName
#1:    NA  Joh      NA
#2:    31  Raf     Sal
#3:    33  Jon     Eng
#4:    33  Ste     Eng
#5:    34  Rob     Cle
#6:    34  Smi     Cle
#7:    35   NA     Mar

####################
#NATURAL INNER JOIN#
####################
IJ <- merge.data.frame(X,Y)
#R) IJ
  #depID name depName
#1    31  Raf     Sal
#2    33  Jon     Eng
#3    33  Ste     Eng
#4    34  Rob     Cle
#5    34  Smi     Cle

IJ2 <- merge(X,Y)
#R) IJ2
   #depID name depName
#1:    31  Raf     Sal
#2:    33  Jon     Eng
#3:    33  Ste     Eng
#4:    34  Rob     Cle
#5:    34  Smi     Cle


A <- data.table(time=as.POSIXct(c("10:01:01","10:01:02","10:01:04","10:01:05","10:01:02","10:01:01","10:01:01"),format="%H:%M:%S"),
                b=c("a","a","a","a","b","c","c"), 
                d=c(1,1.9,2,1.8,5,4.1,4.2));
B <- data.table(time=as.POSIXct(c("10:01:01","10:01:03","10:01:00","10:01:01"),format="%H:%M:%S"),b=c("a","a","c","d"), e=c(1L,2L,3L,4L));
setkey(A,b,time)
setkey(B,b,time)


###########
#ASOF JOIN#
###########
AOJ <- B[A,roll=T]
#R) AOJ
   #b                time  e   d
#1: a 2013-01-11 10:01:01  1 1.0
#2: a 2013-01-11 10:01:02  1 1.9
#3: a 2013-01-11 10:01:04  2 2.0
#4: a 2013-01-11 10:01:05  2 1.8
#5: b 2013-01-11 10:01:02 NA 5.0
#6: c 2013-01-11 10:01:01  3 4.1
#7: c 2013-01-11 10:01:01  3 4.2

【讨论】：

【参考方案2】：

在其他答案中跟进 cmets，是的，这是证明它只影响类型 double 列（integer 和 character 列中的 NA 可以）。

X = data.table(name=c("Raf","Jon","Ste","Rob","Smi","Joh"),
               depID=as.integer(c(31,33,33,34,34,NA)),key="depID")
Y = data.table(depID=as.integer(c(31,33,34,35)),
               depName=c("Sal","Eng","Cle","Mar"),key="depID")
Y[X]
   depID depName name
1:    NA      NA  Joh
2:    31     Sal  Raf
3:    33     Eng  Jon
4:    33     Eng  Ste
5:    34     Cle  Rob
6:    34     Cle  Smi

merge.data.frame(X,Y,all.x=T)
  depID name depName
1    31  Raf     Sal
2    33  Jon     Eng
3    33  Ste     Eng
4    34  Rob     Cle
5    34  Smi     Cle
6    NA  Joh    <NA>

Y = data.table(depID=as.character(c(31,33,34,35)),
               depName=c("Sal","Eng","Cle","Mar"),key="depID")
X = data.table(name=c("Raf","Jon","Ste","Rob","Smi","Joh"),
               depID=as.character(c(31,33,33,34,34,NA)),key="depID")
X
   name depID
1:  Raf    31
2:  Jon    33
3:  Ste    33
4:  Rob    34
5:  Smi    34
6:  Joh    NA
Y
   depID depName
1:    31     Sal
2:    33     Eng
3:    34     Cle
4:    35     Mar
str(X)
Classes ‘data.table’ and 'data.frame':  6 obs. of  2 variables:
 $ name : chr  "Raf" "Jon" "Ste" "Rob" ...
 $ depID: chr  "31" "33" "33" "34" ...
 - attr(*, "sorted")= chr "depID"
 - attr(*, ".internal.selfref")=<externalptr> 

merge.data.frame(X,Y,all.x=T)
  depID name depName
1    31  Raf     Sal
2    33  Jon     Eng
3    33  Ste     Eng
4    34  Rob     Cle
5    34  Smi     Cle
6  <NA>  Joh    <NA>

Y[X]
   depID depName name
1:    31     Sal  Raf
2:    33     Eng  Jon
3:    33     Eng  Ste
4:    34     Cle  Rob
5:    34     Cle  Smi
6:    NA      NA  Joh

该问题已由 MATTHEW DOWLE 在 V.1.8.7 中修复

【讨论】：

【参考方案3】：

是的，它看起来像是一个与键中的 NA 相关的（令人尴尬的）新错误。还有其他关于 NA in key 的讨论是不可能的，但我没有意识到它会以这种方式搞砸。会调查。谢谢...

#2453 NA in double key column messes up joins (NA in integer and character ok)

现在已在 1.8.7（提交 780）中修复，来自 NEWS：

在 double 类型的连接列中的 NA 可能会导致 X[Y] 和 merge(X,Y) 返回不正确的结果，#2453。由于 C 源代码中的错误 x==NA_REAL 应该是 ISNA(x)。对双键连接的支持是对 data.table 的相对较新的补充，但同样令人尴尬。已修复并添加了测试。非常感谢 statquant 提供全面且可重复的报告。

【讨论】：

正如先前已删除的答案（实际上是评论）中所报告的，如果 depID 列是整数，则合并可以正常工作。 @MatthewLundberg 很有趣，谢谢。怎么删了，好用！这可以解释为什么测试没有抓住它——我可能只想用整数测试 NA，认为 NA 作为双精度不会有什么不同。我无法回答，但不知道您是否会在没有提示的情况下尝试与整数合并。回答者声称该字符也有效，但我没有验证。 @MatthewLundberg 是的，我需要提示。目前玩的球太多了。 @MatthewDowle 只想说：我喜欢你对社区的反应。感谢您所做的所有工作！坚持下去。

以上是关于在双错误类型的连接列中使用 NA 的 data.table 内部/外部连接？的主要内容，如果未能解决你的问题，请参考以下文章

如何删除所有单元格在我指定的列中都有 NA 的 NA？

用该列的中位数替换矩阵每一列中的 NA

将 data.table 列与数值列中的 NA 进行比较

如何删除数据框列中的空格并向其添加字符串“NA”？

如何用 NA 替换列中的字符串值并将列转换为浮点数？

R语言使用isna函数查看列表和dataframe中是否包含缺失值将dataframe中数据列中的异常值标注为缺失值NA使用na.omit函数删除dataframe中包含缺失值NA的数据行