如何找到两个数据帧的补码
Posted
技术标签:
【中文标题】如何找到两个数据帧的补码【英文标题】:how to find the complement of two dataframes 【发布时间】:2016-12-18 19:00:24 【问题描述】:给定两个大数据帧,是否有任何简洁高效的代码(避免直接使用任何for loop
)让我获得这两个数据帧的补码?
对我来说最直接的方法是计算union-intersection
,如下面的简单示例所示,但我不知道如何用pandas
或np
的优雅语言来实现它
df1= pd.DataFrame('key1': ['K0', 'K0', 'K1', 'K2'],
'key2': ['K0', 'K1', 'K0', 'K1'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'])
df2= pd.DataFrame('key1': ['K0', 'K1', 'K1', 'K2'],
'key2': ['K0', 'K0', 'K0', 'K0'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3'])
intersection= pd.merge(df1, df2, how='inner',on=['key1', 'key2'])
union=pd.merge(df1, df2, how='outer',on=['key1', 'key2'])
complement=union-intersection
感谢任何cmets和答案
【问题讨论】:
picking out elements based on complement of indices in Python pandas的可能重复 @Mathias711,谢谢。要应用他们的解决方案,我需要在union
中找到intersection
的索引。然后我可以应用他们的方法来排除以前获得的索引
【参考方案1】:
从这里开始:
df1= pd.DataFrame('key1': ['K0', 'K0', 'K1', 'K2'],
'key2': ['K0', 'K1', 'K0', 'K1'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'])
df2= pd.DataFrame('key1': ['K0', 'K1', 'K1', 'K2'],
'key2': ['K0', 'K0', 'K0', 'K0'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3'])
intersection = pd.merge(df1, df2, how='inner',on=['key1', 'key2'])
union = pd.merge(df1, df2, how='outer',on=['key1', 'key2'])
打印联合
A B key1 key2 C D
0 A0 B0 K0 K0 C0 D0
1 A1 B1 K0 K1 NaN NaN
2 A2 B2 K1 K0 C1 D1
3 A2 B2 K1 K0 C2 D2
4 A3 B3 K2 K1 NaN NaN
5 NaN NaN K2 K0 C3 D3
打印交点
A B key1 key2 C D
0 A0 B0 K0 K0 C0 D0
1 A2 B2 K1 K0 C1 D1
2 A2 B2 K1 K0 C2 D2
联合路口试试这个:
union[union.isnull().any(axis=1)]
A B key1 key2 C D
1 A1 B1 K0 K1 NaN NaN
4 A3 B3 K2 K1 NaN NaN
5 NaN NaN K2 K0 C3 D3
【讨论】:
非常感谢,但我没有足够的声誉来支持你 我给你点赞了!以上是关于如何找到两个数据帧的补码的主要内容,如果未能解决你的问题,请参考以下文章