如何根据熊猫时间序列中的 5 分钟间隔创建组 ID?

Posted

技术标签:

【中文标题】如何根据熊猫时间序列中的 5 分钟间隔创建组 ID?【英文标题】:how to create a group ID based on 5 minutes interval in pandas timeseries? 【发布时间】:2014-07-20 21:29:43 【问题描述】:

我有一个时间序列数据框df 看起来像这样(时间序列发生在同一天,但跨越不同的时间:

                                id               val 
 time                    
2014-04-03 16:01:53             23              14389      
2014-04-03 16:01:54             28              14391             
2014-04-03 16:05:55             24              14393             
2014-04-03 16:06:25             23              14395             
2014-04-03 16:07:01             23              14395             
2014-04-03 16:10:09             23              14395             
2014-04-03 16:10:23             26              14397             
2014-04-03 16:10:57             26              14397             
2014-04-03 16:11:10             26              14397              

我需要从16:00:00 开始每 5 分钟创建一次组。即16:00:0016:05:00范围内的所有行,新列period的值为1。(每组内的行数不规则,所以我不能简单地切组)

最终,数据应如下所示:

                                id               val           period 
time            
2014-04-03 16:01:53             23              14389             1
2014-04-03 16:01:54             28              14391             1
2014-04-03 16:05:55             24              14393             2
2014-04-03 16:06:25             23              14395             2
2014-04-03 16:07:01             23              14395             2
2014-04-03 16:10:09             23              14395             3
2014-04-03 16:10:23             26              14397             3
2014-04-03 16:10:57             26              14397             3
2014-04-03 16:11:10             26              14397             3

目的是执行一些groupby操作,但是我需要做的操作不包含在pd.resample(how=' ')方法中。所以我必须创建一个period 列来标识每个组,然后执行df.groupby('period').apply(myfunc)

非常感谢任何帮助或 cmets。

谢谢!

【问题讨论】:

df['period'] = df.groupby(pd.TimeGrouper('5Min'))['val'].transform(np.mean)怎么样 【参考方案1】:

您可以在groupy/apply 中使用TimeGrouper 函数。使用TimeGrouper,您无需创建周期列。我知道您不是在尝试计算平均值,但我会以它为例:

>>> df.groupby(pd.TimeGrouper('5Min'))['val'].mean()

time
2014-04-03 16:00:00    14390.000000
2014-04-03 16:05:00    14394.333333
2014-04-03 16:10:00    14396.500000

或带有显式apply 的示例:

>>> df.groupby(pd.TimeGrouper('5Min'))['val'].apply(lambda x: len(x) > 3)

time
2014-04-03 16:00:00    False
2014-04-03 16:05:00    False
2014-04-03 16:10:00     True

TimeGrouper 的文档字符串:

Docstring for resample:class TimeGrouper@21

TimeGrouper(self, freq = 'Min', closed = None, label = None,
how = 'mean', nperiods = None, axis = 0, fill_method = None,
limit = None, loffset = None, kind = None, convention = None, base = 0,
**kwargs)

Custom groupby class for time-interval grouping

Parameters
----------
freq : pandas date offset or offset alias for identifying bin edges
closed : closed end of interval; left or right
label : interval boundary to use for labeling; left or right
nperiods : optional, integer
convention : 'start', 'end', 'e', 's'
    If axis is PeriodIndex

Notes
-----
Use begin, end, nperiods to generate intervals that cannot be derived
directly from the associated object

编辑

我不知道创建句点列的优雅方法,但以下方法可行:

>>> new = df.groupby(pd.TimeGrouper('5Min'),as_index=False).apply(lambda x: x['val'])
>>> df['period'] = new.index.get_level_values(0)
>>> df

                     id    val  period
time
2014-04-03 16:01:53  23  14389       0
2014-04-03 16:01:54  28  14391       0 
2014-04-03 16:05:55  24  14393       1
2014-04-03 16:06:25  23  14395       1
2014-04-03 16:07:01  23  14395       1
2014-04-03 16:10:09  23  14395       2
2014-04-03 16:10:23  26  14397       2
2014-04-03 16:10:57  26  14397       2
2014-04-03 16:11:10  26  14397       2

之所以有效,是因为这里的 groupby 使用 as_index=False 实际上返回了您想要作为多索引的一部分的周期列,我只是抓住了多索引的那一部分并分配给原始数据框中的一个新列。你可以在申请中做任何事情,我只想要索引:

>>> new

   time
0  2014-04-03 16:01:53    14389
   2014-04-03 16:01:54    14391
1  2014-04-03 16:05:55    14393
   2014-04-03 16:06:25    14395
   2014-04-03 16:07:01    14395
2  2014-04-03 16:10:09    14395
   2014-04-03 16:10:23    14397
   2014-04-03 16:10:57    14397
   2014-04-03 16:11:10    14397

>>>  new.index.get_level_values(0)

Int64Index([0, 0, 1, 1, 1, 2, 2, 2, 2], dtype='int64')

【讨论】:

太棒了!我不知道这个TimeGrouper 的事情。我明白了。但是如果我必须创建这个新列period,你有办法吗?我正在考虑使用,groupby(grouper).transoform(func) 创建周期列,但我想不出一个函数来做到这一点。 对了,为什么我在 pandas 文档中找不到pd.TimeGrouper?您能否提供一个链接,以便我可以学习不同的策略? 是的,文档中没有太多内容;我会将文档字符串添加到我的答案中。 添加您的组列并不容易(好吧,也许有一种简单的方法可以做到,但对我来说并不明显)。当我有机会时,我会在我的答案中添加如何做到这一点。 pd.TimeGrouper 已成为 depracted。立即使用pd.Grouper【参考方案2】:

如果我理解正确的问题,取决于您所做的事情,只需使用 resample 方法就可以更轻松地完成

#Get some data
index = pd.DatetimeIndex(start='2013-01-01 00:00', end='2013-01-31 00:00', freq='min')
a = np.random.randint(20, high=30, size=(len(index),1))
b = np.random.randint(14440, high=14449, size=(len(index),1))
df = pd.DataFrame(np.concatenate((a,b), axis=1), index=index, columns=['id','val'])
df.head()


Out[34]:
                     id  val
2013-01-01 00:00:00  20  14446
2013-01-01 00:01:00  25  14443
2013-01-01 00:02:00  25  14448
2013-01-01 00:03:00  20  14445
2013-01-01 00:04:00  28  14442

#Define function for variance
import numpy as np
def pyfun(X):

    if X.shape[0] <= 1:
        result = nan

    else:    
        total = 0
        for x in X:
            total = total + x
        mean = float(total) / X.shape[0]

        total = 0
        for x in X:
            total = total + (mean-x)**2
        result = float(total) / (X.shape[0]-1)

    return result

#Try it out
df.resample('5min', how=pyfun)


Out[53]:
                     id val
2013-01-01 00:00:00  12.3    5.7
2013-01-01 00:05:00  9.3     7.3
2013-01-01 00:10:00  4.7     0.8
2013-01-01 00:15:00  10.8    10.3
2013-01-01 00:20:00  11.5    1.5

嗯,这很容易。这适用于您自己的函数,但如果您想使用库中的函数,那么您需要做的就是在 how 关键字中指定函数

df.resample('5min', how=np.var).head()


Out[54]:
                     id val
2013-01-01 00:00:00  12.3    5.7
2013-01-01 00:05:00  9.3     7.3
2013-01-01 00:10:00  4.7     0.8
2013-01-01 00:15:00  10.8    10.3
2013-01-01 00:20:00  11.5    1.5

【讨论】:

这个答案的上半部分似乎没有必要(或者至少下半部分更有用——这个问题的正确答案)!

以上是关于如何根据熊猫时间序列中的 5 分钟间隔创建组 ID?的主要内容,如果未能解决你的问题,请参考以下文章

如何根据其他变量和时间间隔创建新变量(在 R 中)

Graphite如何根据选定的间隔进行汇总

按间隔合并两个熊猫数据帧

根据列中的一组查找最大值行并在熊猫中进行透视

如何从熊猫数据框列中选择日期间隔? [复制]

如何按定义的时间间隔对熊猫数据框进行分组?