pandas从数据框中用连续的差异过滤行< n。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas从数据框中用连续的差异过滤行< n。相关的知识,希望对你有一定的参考价值。

我有一个 pandas 数据帧这样。

id         time
1             1
2             3
3             4
4             5
5             8
6             8

我想删除相隔不到2秒的行。我首先计算了连续行之间的时间差,并将其添加为一列。

df['time_since_last_detect'] = df.time.diff().fillna(0)

结果是:

id         time       time_since_last_detect
1             1                            0
2             3                            2
3             4                            1
4             5                            1
5             8                            3
6             8                            0

然后用 df[df.time_since_last_detect > 1],其结果是。

id         time       time_since_last_detect
2             3                            2
5             8                            3

但问题是,一旦有一行被删除,它就不会重新计算与新的前一行的差值。例如,在删除第一行和第三行之后,第二行和第四行之间的差值将是2。但是第四行还是会被这个过滤器删除,这是我不希望发生的。解决这个问题的最好方法是什么?这就是我想要达到的结果。

id         time       time_since_last_detect
2             3                            2
4             5                            1
5             8                            3
答案

不是一个完美的解决方案,但你可以做下面的情况。需要修改下面的,使一个通用的函数。

import pandas as pd

d = {'id' : [1,2,3,4,5,6], 'time' : [1,3,4,5,8,8]}
df = pd.DataFrame(data =d)

df['time_since_last_detect'] = df.time.diff().fillna(0)
timeperiod = 2

df['time_since_last_sum'] =  df['time_since_last_detect'].rolling(min_periods=1, window=timeperiod).sum().fillna(0) # gets sum of rolling period , in this case 2. One case change as needed

df_final =  df.loc[(df['time_since_last_detect'] >= 2) | (df['time_since_last_sum'] == 2)] # Filter data with 2 OR condition 1. If last_detect>2 or last of 2 rolling period is 2 

输出:

   id  time  time_since_last_detect  time_since_last_sum
   2     3                     2.0                  2.0
   4     5                     1.0                  2.0
   5     8                     3.0                  4.0

以上是关于pandas从数据框中用连续的差异过滤行< n。的主要内容,如果未能解决你的问题,请参考以下文章

Pandas 从分组数据框中计算连续相等值的长度

如何从按连续变量分层的 Pandas 数据框中获取分层随机样本

使用 OR 语句过滤 Pandas 数据框

使用 groupby 的结果过滤 pandas 数据框

pandas数据框loc属性语法及示例

对 pandas 数据框中的连续值进行分组