在列中查找重复项并拉入新的 df

Posted

技术标签:

【中文标题】在列中查找重复项并拉入新的 df【英文标题】:Find duplicates within a column and pull into new df 【发布时间】:2022-01-23 18:55:20 【问题描述】:

我有两个数据框,其中一列中有重复项。我需要将重复项提取到单独的数据框中。

df1=
    col1     col2   col3   col4
    BLUE      .5     yes    5
    GREEN     .2     no     2
    PINK      .3     yes    3

df2=
    col1     col2   col3   col4
    RED       .9     yes    9
    GREEN     .2     yes    2
    BLUE      .7     yes    7

例如,虽然GREEN行的col2不一样,但我只需要从df2中提取出来,拉到一个新的df中即可。

但还要处理数千行以希望找到一种批量执行此操作的方法。

【问题讨论】:

【参考方案1】:

IIUC 你只需要在col1 上使用.merge

new_df = df2.merge(df1['col1'], on='col1')

输出:

    col1  col2 col3  col4
0  GREEN   0.2  yes     2
1   BLUE   0.7  yes     7

【讨论】:

以上是关于在列中查找重复项并拉入新的 df的主要内容,如果未能解决你的问题,请参考以下文章

在列中查找重复条目 [重复]

在列中查找具有重复值的行

SQL:使用案例在单独的列中查找重复项和标记

如何对同一列中的重复值执行IF语句

Python Pandas Regex:在列中搜索带有通配符的字符串并返回匹配项[重复]

在列中查找值,填充'直到非空白单元格