根据“不在”条件从数据框中删除行[重复]

Posted

技术标签:

【中文标题】根据“不在”条件从数据框中删除行[重复]【英文标题】:dropping rows from dataframe based on a "not in" condition [duplicate] 【发布时间】:2015-03-13 22:56:52 【问题描述】:

当日期列的值在日期列表中时,我想从 pandas 数据框中删除行。以下代码不起作用:

a=['2015-01-01' , '2015-02-01']

df=df[df.datecolumn not in a]

我收到以下错误:

ValueError:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

【问题讨论】:

【参考方案1】:

您可以使用pandas.Dataframe.isin

pandas.Dateframe.isin 将根据每个元素是否在列表 a 内返回布尔值。然后用 ~ 反转它,将 True 转换为 False,反之亦然。

import pandas as pd

a = ['2015-01-01' , '2015-02-01']

df = pd.DataFrame(data='date':['2015-01-01' , '2015-02-01', '2015-03-01' , '2015-04-01', '2015-05-01' , '2015-06-01'])

print(df)
#         date
#0  2015-01-01
#1  2015-02-01
#2  2015-03-01
#3  2015-04-01
#4  2015-05-01
#5  2015-06-01

df = df[~df['date'].isin(a)]

print(df)
#         date
#2  2015-03-01
#3  2015-04-01
#4  2015-05-01
#5  2015-06-01

【讨论】:

您的意思可能是Series.isin,而不是DataFrame.isin。您正在比较一列,而不是整个 df。 我在尝试这个时出错df = df[~df.isin(a)]SystemError: <built-in method view of numpy.ndarray object at 0x11a227690> returned a result with an error set【参考方案2】:

你可以使用Series.isin:

df = df[~df.datecolumn.isin(a)]

虽然错误消息表明可以使用all()any(),但它们仅在您希望将结果简化为单个布尔值时才有用。但是,这不是您现在要尝试做的事情,即针对外部列表测试 Series 中每个值的成员资格,并保持结果不变(即,一个 Boolean Series,然后将用于对原始 DataFrame 进行切片)。

您可以在Gotchas 中阅读更多相关信息。

【讨论】:

以上是关于根据“不在”条件从数据框中删除行[重复]的主要内容,如果未能解决你的问题,请参考以下文章

如何根据条件表达式从熊猫数据框中删除行[重复]

根据条件 pandas 删除 DataFrame 中的重复行

从熊猫数据框中删除重复行:不区分大小写的比较

如何根据自定义逻辑在 spark 数据框中删除重复行?

从数据框中删除行的命令[重复]

从数据框中删除特定行[重复]