如何找到两个数据帧的补码

Posted

技术标签:

【中文标题】如何找到两个数据帧的补码【英文标题】:how to find the complement of two dataframes 【发布时间】:2016-12-18 19:00:24 【问题描述】:

给定两个大数据帧,是否有任何简洁高效的代码(避免直接使用任何for loop)让我获得这两个数据帧的补码?

对我来说最直接的方法是计算union-intersection,如下面的简单示例所示,但我不知道如何用pandasnp 的优雅语言来实现它

df1= pd.DataFrame('key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'])     
df2= pd.DataFrame('key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3'])        
intersection= pd.merge(df1, df2, how='inner',on=['key1', 'key2'])
union=pd.merge(df1, df2, how='outer',on=['key1', 'key2'])       


complement=union-intersection

感谢任何cmets和答案

【问题讨论】:

picking out elements based on complement of indices in Python pandas的可能重复 @Mathias711,谢谢。要应用他们的解决方案,我需要在union 中找到intersection 的索引。然后我可以应用他们的方法来排除以前获得的索引 【参考方案1】:

从这里开始:

df1= pd.DataFrame('key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'])     
df2= pd.DataFrame('key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3'])        
intersection  = pd.merge(df1, df2, how='inner',on=['key1', 'key2'])
union         = pd.merge(df1, df2, how='outer',on=['key1', 'key2'])       

打印联合

     A    B key1 key2    C    D
0   A0   B0   K0   K0   C0   D0
1   A1   B1   K0   K1  NaN  NaN
2   A2   B2   K1   K0   C1   D1
3   A2   B2   K1   K0   C2   D2
4   A3   B3   K2   K1  NaN  NaN
5  NaN  NaN   K2   K0   C3   D3

打印交点

    A   B key1 key2   C   D
0  A0  B0   K0   K0  C0  D0
1  A2  B2   K1   K0  C1  D1
2  A2  B2   K1   K0  C2  D2

联合路口试试这个:

union[union.isnull().any(axis=1)]

     A    B key1 key2    C    D
1   A1   B1   K0   K1  NaN  NaN
4   A3   B3   K2   K1  NaN  NaN
5  NaN  NaN   K2   K0   C3   D3

【讨论】:

非常感谢,但我没有足够的声誉来支持你 我给你点赞了!

以上是关于如何找到两个数据帧的补码的主要内容,如果未能解决你的问题,请参考以下文章

两个数据帧的数组列的平均值并在pyspark中找到最大索引

如何获取多索引数据帧的前两个索引的字典

如何比较两个数据帧的内容? [重复]

如何使用具有不同列号pyspark的两个数据帧的并集

Python Pandas:如何在数据帧的每行中选择两个相等的列

如何根据两个连续帧的投影变换矩阵估计相机姿态?