Pandas 使用一些条件列值保留相同 ID 的最新行
Posted
技术标签:
【中文标题】Pandas 使用一些条件列值保留相同 ID 的最新行【英文标题】:Pandas keep the latest rows for the same ID with some conditional column values 【发布时间】:2022-01-17 12:46:16 【问题描述】:我想保留具有相同 ID 的最新行以及与某些列值匹配的行。样本输入:
ID Timestamp Survey Outcome
12 11/26/2021 INCOMPLETE Survey
95 11/26/2021 INCOMPLETE Survey
95 11/27/2021 COMPLETE Survey
95 11/28/2021 RANG-But did not connect
12 11/29/2021 COMPLETE Survey
24 11/26/2021 RANG-But did not connect
24 11/27/2021 INCOMPLETE Survey
95 11/28/2021 RANG-But did not connect
24 11/28/2021 INCOMPLETE Survey
这里 ID 12 有两个值,所以我将保留最新的 (11/29/2021) 行。但是对于 ID 95,一旦调查完成,它就不能有任何其他选项,例如 rang-but did not connect。因此,我想保留最新的时间戳数据,并保留那些一旦数据完成调查但最新数据显示调查不完整或未连接的行/em>(查看COMPLETE SURVEY后的所有数据)。
所以我的示例输出将是:
ID Timestamp Survey Outcome
95 11/27/2021 COMPLETE Survey
95 11/28/2021 RANG-But did not connect
12 11/29/2021 COMPLETE Survey
95 11/28/2021 RANG-But did not connect
24 11/28/2021 INCOMPLETE Survey```
【问题讨论】:
【参考方案1】:首先使用DataFrame.sort_values
by ID
和Timestamp
,然后对COMPLETE Survey
之后的所有值使用GroupBy.cummax
并添加最后一个ID
与isin
不匹配的DataFrame.drop_duplicates
:
df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df = df.sort_values(['ID','Timestamp'])
m = df['Survey Outcome'].eq('COMPLETE Survey')
df1 = df[m.groupby(df['ID']).cummax()]
df2 = df.drop_duplicates('ID', keep='last')
df = df1.append(df2[~df2['ID'].isin(df1['ID'])]).sort_index()
print (df)
ID Timestamp Survey Outcome
2 95 2021-11-27 COMPLETE Survey
3 95 2021-11-28 RANG-But did not connect
4 12 2021-11-29 COMPLETE Survey
7 95 2021-11-28 RANG-But did not connect
8 24 2021-11-28 INCOMPLETE Survey
【讨论】:
它在我的代码中不起作用!!它只保留最后的完整数据。 @asifabdullah - 你认为样本数据吗?【参考方案2】:你可以使用:
df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df.sort_values(by=['ID', 'Timestamp']).reset_index(drop=True, inplace=True)
df = df.groupby('ID').apply(lambda x: x.loc[x[x['Survey Outcome'] == 'COMPLETE Survey'].index[0]: ] if
x['Survey Outcome'].isin(['COMPLETE Survey']).any() else x.loc[x['Timestamp'].idxmax():]).reset_index(drop=True)
print(df)
OUTPUT
ID Timestamp Survey Outcome
0 12 2021-11-29 COMPLETE Survey
1 24 2021-11-28 INCOMPLETE Survey
2 95 2021-11-27 COMPLETE Survey
3 95 2021-11-28 RANG-But did not connect
4 95 2021-11-28 RANG-But did not connect
【讨论】:
以上是关于Pandas 使用一些条件列值保留相同 ID 的最新行的主要内容,如果未能解决你的问题,请参考以下文章