计算 pandas 数据框中的重叠时间帧,按人分组

Posted

技术标签:

【中文标题】计算 pandas 数据框中的重叠时间帧,按人分组【英文标题】:Count overlapping time frames in a pandas dataframe, grouped by person 【发布时间】:2021-05-20 18:11:48 【问题描述】:

我正在使用最佳解决方案here 来确定开始和结束时间与给定行重叠的行数。但是,我需要这些重叠由组确定,而不是跨整个数据框。

我正在使用的数据包含对话的开始和结束时间以及相关人员的姓名:

id  start_time              end_time             name
1   2021-02-10 10:37:35     2021-02-10 12:16:22  Bob
2   2021-02-10 11:09:39     2021-02-10 13:06:25  Bob
3   2021-02-10 12:10:33     2021-02-10 17:06:26  Bob
4   2021-02-10 15:05:08     2021-02-10 21:07:05  Sally 
5   2021-02-10 21:07:26     2021-02-10 21:26:37  Sally  

这是上一篇文章中的解决方案:

ends = df['start_time'].values < df['end_time'].values[:, None]
starts = df['start_time'].values > df['start_time'].values[:, None]
d['overlap'] = (ends & starts).sum(0)
df

但这记录在对话 3 和 4 之间重叠,而我只在寻找 1 - 3 或 4 - 5 之间的重叠。

我现在得到的:

id  start_time              end_time             name   overlap
1   2021-02-10 10:37:35     2021-02-10 12:16:22  Bob    2
2   2021-02-10 11:09:39     2021-02-10 13:06:25  Bob    1
3   2021-02-10 12:10:33     2021-02-10 17:06:26  Bob    1
4   2021-02-10 15:05:08     2021-02-10 21:07:05  Sally  1 
5   2021-02-10 21:07:26     2021-02-10 21:26:37  Sally  0  

我想得到什么:

id  start_time              end_time             name   overlap
1   2021-02-10 10:37:35     2021-02-10 12:16:22  Bob    2
2   2021-02-10 11:09:39     2021-02-10 13:06:25  Bob    1
3   2021-02-10 12:10:33     2021-02-10 17:06:26  Bob    0
4   2021-02-10 15:05:08     2021-02-10 21:07:05  Sally  1 
5   2021-02-10 21:07:26     2021-02-10 21:26:37  Sally  0  

【问题讨论】:

您应该以可复制的格式提供数据,以便人们在解决方案时可以复制粘贴数据。另外,您是否查看过groupby() 函数? 我刚刚编辑了我的答案,它似乎运行良好,你在你想要的输出中有一个错误,因为两个 Sally 应该有重叠 0,id 5 不属于 id 4 的范围跨度> @Mark 如果我的回答对您有用,请您接受,否则请详细说明它无法回答您的问题 【参考方案1】:

我认为这可能会满足您的需求。

添加一个额外的 & 条件来匹配名称:

ends = df['start_time'].values < df['end_time'].values[:, None]
starts = df['start_time'].values > df['start_time'].values[:, None]
same_group = (df['name'].values == df['name'].values[:, None])

# sum across axis=1 !!!
df['overlap'] = (ends & starts & same_group).sum(1)

df

【讨论】:

以上是关于计算 pandas 数据框中的重叠时间帧,按人分组的主要内容,如果未能解决你的问题,请参考以下文章

计算由另一列值分组的列值在 pandas 数据框中的共现

根据 pandas 中的字典对数据帧的行进行分组并对相应的分子求和

Pandas 从分组数据框中计算连续相等值的长度

使用 pandas 在数据帧上执行 groupby,按计数排序并获取 python 中的前 2 个计数

在 Pandas 数据框中计算动态时间扭曲距离

行中的 Python/Pandas 数据帧时间数据(按名称分组)