如何使用 python 或 pandas 根据包含字典列表的列过滤 DataFrame?

Posted

技术标签:

【中文标题】如何使用 python 或 pandas 根据包含字典列表的列过滤 DataFrame?【英文标题】:How do I use python or pandas to filter a DataFrame based on a column that consists of a list of dictionary? 【发布时间】:2021-02-15 21:08:08 【问题描述】:

我有一个 DataFrame,其中一列是字典列表。我需要在包含字典列表的列上应用条件并获取一个布尔值。条件包括日期时间格式。

lastDate = pd.to_datetime(date.today().replace(day=1) - timedelta(1))

Output is: Timestamp('2020-10-31 00:00:00')

数据帧,

ID    Name     Status
1     Rav      ['status': 'SIGNUP', 'Date': datetime.datetime(2020, 10, 30, 2, 43, 18, 578000), 'status': 'REG_COMPLETED', 'Date': datetime.datetime(2020, 10, 30, 2, 55, 52, 120000)]
2     Suv      ['status': 'SIGNUP', 'Date': datetime.datetime(2020, 11, 01, 2, 43, 18, 578000), 'status': 'REG_COMPLETED', 'Date': datetime.datetime(2020, 11, 01, 2, 55, 52, 120000)]
3     Tim      ['status': 'SIGNUP', 'Date': datetime.datetime(2020, 11, 01, 2, 43, 18, 578000), 'status': 'REG_COMPLETED', 'Date': datetime.datetime(2020, 11, 01, 2, 55, 52, 120000)]
4     Jaq      ['status': 'SIGNUP', 'Date': datetime.datetime(2020, 11, 01, 2, 43, 18, 578000), 'status': 'REG_COMPLETED', 'Date': datetime.datetime(2020, 11, 01, 2, 55, 52, 120000)]
5     Tan      ['status': 'SIGNUP', 'Date': datetime.datetime(2020, 10, 30, 2, 43, 18, 578000), 'status': 'REG_COMPLETED', 'Date': datetime.datetime(2020, 10, 30, 2, 55, 52, 120000)]
If the status = "REG_COMPLETED" and Date <= lastDate, THEN True else False

所需的输出,

ID    Name     Status
1     Rav      True
2     Suv      False
3     Tim      False
4     Jaq      False
5     Tan      True

我试过了,但给了我一个空的 DataFrame,

df[df['status'].apply(lambda x: x[0]['Status']=='REG_COMPLETED' and x[0]['Date']<=lastDate)]

【问题讨论】:

【参考方案1】:

使用列表推导获取Date 如果status 匹配条件,比较并测试any 是否至少有一个True

f = lambda x: any(y['Date'] <= lastDate for y in x if y['status']=='REG_COMPLETED')
df['Status'] = df['Status'].apply(f)
print (df)
   ID Name  Status
0   1  Rav    True
1   2  Suv   False
2   3  Tim   False
3   4  Jaq   False
4   5  Tan    True

【讨论】:

以上是关于如何使用 python 或 pandas 根据包含字典列表的列过滤 DataFrame?的主要内容,如果未能解决你的问题,请参考以下文章

如何根据 Python pandas 中的条件拆分列

如何根据当前日期使用 python Pandas 从 Excel 工作表加载特定工作簿

如何根据 pandas-python 中带有空格的图像拆分列中的值

如何在 python+numpy/pandas 中使用二值化在 json 文件中创建新列

如何优雅的安装Python的pandas

使用 Panda 在 Python 中根据名称查找值之间的关系