计算 pandas 数据框中的重叠时间帧,按人分组
Posted
技术标签:
【中文标题】计算 pandas 数据框中的重叠时间帧,按人分组【英文标题】:Count overlapping time frames in a pandas dataframe, grouped by person 【发布时间】:2021-05-20 18:11:48 【问题描述】:我正在使用最佳解决方案here 来确定开始和结束时间与给定行重叠的行数。但是,我需要这些重叠由组确定,而不是跨整个数据框。
我正在使用的数据包含对话的开始和结束时间以及相关人员的姓名:
id start_time end_time name
1 2021-02-10 10:37:35 2021-02-10 12:16:22 Bob
2 2021-02-10 11:09:39 2021-02-10 13:06:25 Bob
3 2021-02-10 12:10:33 2021-02-10 17:06:26 Bob
4 2021-02-10 15:05:08 2021-02-10 21:07:05 Sally
5 2021-02-10 21:07:26 2021-02-10 21:26:37 Sally
这是上一篇文章中的解决方案:
ends = df['start_time'].values < df['end_time'].values[:, None]
starts = df['start_time'].values > df['start_time'].values[:, None]
d['overlap'] = (ends & starts).sum(0)
df
但这记录在对话 3 和 4 之间重叠,而我只在寻找 1 - 3 或 4 - 5 之间的重叠。
我现在得到的:
id start_time end_time name overlap
1 2021-02-10 10:37:35 2021-02-10 12:16:22 Bob 2
2 2021-02-10 11:09:39 2021-02-10 13:06:25 Bob 1
3 2021-02-10 12:10:33 2021-02-10 17:06:26 Bob 1
4 2021-02-10 15:05:08 2021-02-10 21:07:05 Sally 1
5 2021-02-10 21:07:26 2021-02-10 21:26:37 Sally 0
我想得到什么:
id start_time end_time name overlap
1 2021-02-10 10:37:35 2021-02-10 12:16:22 Bob 2
2 2021-02-10 11:09:39 2021-02-10 13:06:25 Bob 1
3 2021-02-10 12:10:33 2021-02-10 17:06:26 Bob 0
4 2021-02-10 15:05:08 2021-02-10 21:07:05 Sally 1
5 2021-02-10 21:07:26 2021-02-10 21:26:37 Sally 0
【问题讨论】:
您应该以可复制的格式提供数据,以便人们在解决方案时可以复制粘贴数据。另外,您是否查看过groupby()
函数?
我刚刚编辑了我的答案,它似乎运行良好,你在你想要的输出中有一个错误,因为两个 Sally 应该有重叠 0,id 5 不属于 id 4 的范围跨度>
@Mark 如果我的回答对您有用,请您接受,否则请详细说明它无法回答您的问题
【参考方案1】:
我认为这可能会满足您的需求。
添加一个额外的 & 条件来匹配名称:
ends = df['start_time'].values < df['end_time'].values[:, None]
starts = df['start_time'].values > df['start_time'].values[:, None]
same_group = (df['name'].values == df['name'].values[:, None])
# sum across axis=1 !!!
df['overlap'] = (ends & starts & same_group).sum(1)
df
【讨论】:
以上是关于计算 pandas 数据框中的重叠时间帧,按人分组的主要内容,如果未能解决你的问题,请参考以下文章
根据 pandas 中的字典对数据帧的行进行分组并对相应的分子求和