熊猫时间序列重新采样结束给定的一天

Posted

技术标签:

【中文标题】熊猫时间序列重新采样结束给定的一天【英文标题】:pandas timeseries resampling ending a given day 【发布时间】:2014-08-09 20:08:25 【问题描述】:

我怀疑很多从事时间序列数据工作的人已经遇到过这个问题,而且 pandas 似乎还没有提供一个简单的解决方案(还没有!):

假设:

    您有一个时间序列的每日收盘价数据,按日期(天)索引。 今天是 6 月 19 日。最后收盘数据值为 18JUN。 您希望将每日数据重新采样到 OHLC 条形图中,并以某个给定的频率(比如 M 或 2M)在 6 月 18 日结束。

所以对于 M 频率,最后一根柱子是 19MAY-18JUN,前一根柱子是 19APR-18MAY,依此类推......

ts.resample('M', how='ohlc')

将进行重新采样,但 'M' 是 'end_of_month' 期间,因此结果将给出 2014-05 的整月和 2014-06 的 2 周期间,因此您的最后一个条形图不会是 '每月酒吧'。这不是我们想要的!

使用2M 频率,给定我的样本时间序列,我的测试给出了最后一个标记为 2014-07-31(之前标记为 2014-05-31)的柱状图,这是非常具有误导性的,因为没有 7 月份的数据。 ... 假定的最后 2 个月条形图再次仅涵盖最近 2 周。

正确的 DatetimeIndex 很容易创建:

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + datetime.timedelta(days=18)

(Pandas 文档更喜欢通过

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + pandas.tseries.offsets.DateOffset(days=18)

但我的测试表明,这种方法虽然更 'pandaïc' 慢 2 倍!)

无论哪种方式,我们都无法将正确的 DatetimeIndex 应用于 ts.resample()。

pandas 开发团队 (Date ranges in Pandas) 似乎意识到了这个问题,但与此同时,您如何解决这个问题以使 OHLC 的滚动频率锚定在时间序列的最后一天?

【问题讨论】:

【参考方案1】:

这基本上是从复制/粘贴中破解的,我肯定在某些情况下会失败 - 但下面是一些自定义偏移量的起始代码,它锚定到一个月中的特定日期。

from pandas.tseries.offsets import (as_datetime, as_timestamp, apply_nat, 
                               DateOffset, relativedelta, datetime)
class MonthAnchor(DateOffset):
    """DateOffset Anchored to day in month

        Arguments:
        day_anchor: day to be anchored to
    """

    def __init__(self, n=1, **kwds):
        super(MonthAnchor, self).__init__(n)

        self.kwds = kwds
        self._dayanchor = self.kwds['day_anchor']

    @apply_nat
    def apply(self, other):
        n = self.n

        if other.day > self._dayanchor and n <= 0:  # then roll forward if n<=0
            n += 1
        elif other.day < self._dayanchor and n > 0:
            n -= 1

        other = as_datetime(other) + relativedelta(months=n)
        other = datetime(other.year, other.month, self._dayanchor)
        return as_timestamp(other)

    def onOffset(self, dt):
        return dt.day == self._dayanchor

    _prefix = ''

示例用法:

In [28]: df = pd.DataFrame(data=np.linspace(50, 100, 200), index=pd.date_range(end='2014-06-18', periods=200), columns=['value'])

In [29]: df.head()
Out[29]: 
                value
2013-12-01  50.000000
2013-12-02  50.251256
2013-12-03  50.502513
2013-12-04  50.753769
2013-12-05  51.005025


In [61]: month_offset = MonthAnchor(day_anchor = df.index[-1].day + 1)

In [62]: df.resample(month_offset, how='ohlc')
Out[62]: 
                value                                   
                 open        high        low       close
2013-11-19  50.000000   54.271357  50.000000   54.271357
2013-12-19  54.522613   62.060302  54.522613   62.060302
2014-01-19  62.311558   69.849246  62.311558   69.849246
2014-02-19  70.100503   76.884422  70.100503   76.884422
2014-03-19  77.135678   84.673367  77.135678   84.673367
2014-04-19  84.924623   92.211055  84.924623   92.211055
2014-05-19  92.462312  100.000000  92.462312  100.000000

【讨论】:

例如,如果 day_anchor > 28(FEB 的最后一天),它似乎会失败,出现“ValueError: day is out of range for month” 这似乎坏了:ImportError: cannot import name 'apply_nat' from 'pandas.tseries.offsets'。有什么想法吗?

以上是关于熊猫时间序列重新采样结束给定的一天的主要内容,如果未能解决你的问题,请参考以下文章

Pandas 重新采样倒数的时间序列(或反向重新采样)

熊猫时间序列重新采样,分箱似乎关闭

Python PANDAS:使用 Groupby 重新采样多元时间序列

在熊猫中重新采样时间序列

熊猫重新采样时间序列数据 - 同一列上有多个 agg 函数?

熊猫将每小时时间序列重新采样为每小时比例时间序列