pandas从数据框中用连续的差异过滤行< n。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas从数据框中用连续的差异过滤行< n。相关的知识,希望对你有一定的参考价值。
我有一个 pandas
数据帧这样。
id time
1 1
2 3
3 4
4 5
5 8
6 8
我想删除相隔不到2秒的行。我首先计算了连续行之间的时间差,并将其添加为一列。
df['time_since_last_detect'] = df.time.diff().fillna(0)
结果是:
id time time_since_last_detect
1 1 0
2 3 2
3 4 1
4 5 1
5 8 3
6 8 0
然后用 df[df.time_since_last_detect > 1]
,其结果是。
id time time_since_last_detect
2 3 2
5 8 3
但问题是,一旦有一行被删除,它就不会重新计算与新的前一行的差值。例如,在删除第一行和第三行之后,第二行和第四行之间的差值将是2。但是第四行还是会被这个过滤器删除,这是我不希望发生的。解决这个问题的最好方法是什么?这就是我想要达到的结果。
id time time_since_last_detect
2 3 2
4 5 1
5 8 3
答案
不是一个完美的解决方案,但你可以做下面的情况。需要修改下面的,使一个通用的函数。
import pandas as pd
d = {'id' : [1,2,3,4,5,6], 'time' : [1,3,4,5,8,8]}
df = pd.DataFrame(data =d)
df['time_since_last_detect'] = df.time.diff().fillna(0)
timeperiod = 2
df['time_since_last_sum'] = df['time_since_last_detect'].rolling(min_periods=1, window=timeperiod).sum().fillna(0) # gets sum of rolling period , in this case 2. One case change as needed
df_final = df.loc[(df['time_since_last_detect'] >= 2) | (df['time_since_last_sum'] == 2)] # Filter data with 2 OR condition 1. If last_detect>2 or last of 2 rolling period is 2
输出:
id time time_since_last_detect time_since_last_sum
2 3 2.0 2.0
4 5 1.0 2.0
5 8 3.0 4.0
以上是关于pandas从数据框中用连续的差异过滤行< n。的主要内容,如果未能解决你的问题,请参考以下文章