Pandas 使用一些条件列值保留相同 ID 的最新行

Posted

技术标签:

【中文标题】Pandas 使用一些条件列值保留相同 ID 的最新行【英文标题】:Pandas keep the latest rows for the same ID with some conditional column values 【发布时间】:2022-01-17 12:46:16 【问题描述】:

我想保留具有相同 ID 的最新行以及与某些列值匹配的行。样本输入:

ID          Timestamp       Survey Outcome
12          11/26/2021      INCOMPLETE Survey
95          11/26/2021      INCOMPLETE Survey
95          11/27/2021      COMPLETE Survey
95          11/28/2021      RANG-But did not connect
12          11/29/2021      COMPLETE Survey
24          11/26/2021      RANG-But did not connect
24          11/27/2021      INCOMPLETE Survey
95          11/28/2021      RANG-But did not connect
24          11/28/2021      INCOMPLETE Survey

这里 ID 12 有两个值,所以我将保留最新的 (11/29/2021) 行。但是对于 ID 95,一旦调查完成,它就不能有任何其他选项,例如 rang-but did not connect。因此,我想保留最新的时间戳数据,并保留那些一旦数据完成调查但最新数据显示调查不完整未连接的行/em>(查看COMPLETE SURVEY后的所有数据)。

所以我的示例输出将是:

ID          Timestamp       Survey Outcome
95          11/27/2021      COMPLETE Survey
95          11/28/2021      RANG-But did not connect
12          11/29/2021      COMPLETE Survey
95          11/28/2021      RANG-But did not connect
24          11/28/2021      INCOMPLETE Survey```


【问题讨论】:

【参考方案1】:

首先使用DataFrame.sort_values by IDTimestamp,然后对COMPLETE Survey 之后的所有值使用GroupBy.cummax 并添加最后一个IDisin 不匹配的DataFrame.drop_duplicates

df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df = df.sort_values(['ID','Timestamp'])

m = df['Survey Outcome'].eq('COMPLETE Survey')

df1 = df[m.groupby(df['ID']).cummax()]
df2 = df.drop_duplicates('ID', keep='last')

df = df1.append(df2[~df2['ID'].isin(df1['ID'])]).sort_index()

print (df)
   ID  Timestamp            Survey Outcome
2  95 2021-11-27           COMPLETE Survey
3  95 2021-11-28  RANG-But did not connect
4  12 2021-11-29           COMPLETE Survey
7  95 2021-11-28  RANG-But did not connect
8  24 2021-11-28         INCOMPLETE Survey

【讨论】:

它在我的代码中不起作用!!它只保留最后的完整数据。 @asifabdullah - 你认为样本数据吗?【参考方案2】:

你可以使用:

df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df.sort_values(by=['ID', 'Timestamp']).reset_index(drop=True, inplace=True)
df = df.groupby('ID').apply(lambda x: x.loc[x[x['Survey Outcome'] == 'COMPLETE Survey'].index[0]: ] if
                            x['Survey Outcome'].isin(['COMPLETE Survey']).any() else x.loc[x['Timestamp'].idxmax():]).reset_index(drop=True)
print(df)

OUTPUT

   ID  Timestamp            Survey Outcome
0  12 2021-11-29           COMPLETE Survey
1  24 2021-11-28         INCOMPLETE Survey
2  95 2021-11-27           COMPLETE Survey
3  95 2021-11-28  RANG-But did not connect
4  95 2021-11-28  RANG-But did not connect

【讨论】:

以上是关于Pandas 使用一些条件列值保留相同 ID 的最新行的主要内容,如果未能解决你的问题,请参考以下文章

删除pandas数据帧中的重复项后,替换特定的列值

在 Pandas 中翻转数据框并将一列值保留为新行值 [重复]

Pandas - 获取行匹配条件的列值[重复]

关于保留一列值满足某些约束的行[重复]

pandas根据两个条件设置列值[重复]

Pandas:如果条件[重复],则从另一列更新列值