在 Pandas 多索引中选择日期范围的正确方法是啥?

Posted

技术标签:

【中文标题】在 Pandas 多索引中选择日期范围的正确方法是啥?【英文标题】:What is the proper way of selecting date ranges in Pandas multi-indexes?在 Pandas 多索引中选择日期范围的正确方法是什么? 【发布时间】:2018-10-08 20:05:50 【问题描述】:

在 Pandas 多索引中选择日期范围的正确方法是什么?

我有一个多索引数据框,如下所示:

如果我想选择某一天,使用xs 很简单:

data.xs('2011-11-11', level='Date').head()

但是,如果我想选择一个日期范围,我不能。以下所有内容都给我一个Invalid Syntax 错误:

data.xs('2011-10-10':'2011-11-11', level='Date').head()
data.xs(['2011-10-10':'2011-11-11'], level='Date').head()

注意 #1:我正在寻找一种使用优雅 Pandas 功能的方法。使用 4 或 5 行代码自然很容易解决问题,问题在于“正确的方法”是什么。

注意 #2:我见过 this answer,但这并没有涵盖这个案例。

【问题讨论】:

【参考方案1】:

使用上一个问题的数据:

d = 'Col1': (Timestamp('2015-05-14 00:00:00'), '10'): 81.370003,
  (Timestamp('2015-05-14 00:00:00'), '11'): 80.41999799999999,
  (Timestamp('2015-05-14 00:00:00'), 'C3'): 80.879997,
  (Timestamp('2015-05-19 00:00:00'), '3'): 80.629997,
  (Timestamp('2015-05-19 00:00:00'), 'S9'): 80.550003,
  (Timestamp('2015-05-21 00:00:00'), '19'): 80.480003,
  (Timestamp('2015-05-22 00:00:00'), 'C3'): 80.540001,
 'Col2': (Timestamp('2015-05-14 00:00:00'), '10'): 6.11282,
  (Timestamp('2015-05-14 00:00:00'), '11'): 6.0338,
  (Timestamp('2015-05-14 00:00:00'), 'C3'): 6.00746,
  (Timestamp('2015-05-19 00:00:00'), '3'): 6.10465,
  (Timestamp('2015-05-19 00:00:00'), 'S9'): 6.1437,
  (Timestamp('2015-05-21 00:00:00'), '19'): 6.16096,
  (Timestamp('2015-05-22 00:00:00'), 'C3'): 6.1391599999999995,
 'Col3': (Timestamp('2015-05-14 00:00:00'), '10'): 39.753,
  (Timestamp('2015-05-14 00:00:00'), '11'): 39.289,
  (Timestamp('2015-05-14 00:00:00'), 'C3'): 41.248999999999995,
  (Timestamp('2015-05-19 00:00:00'), '3'): 41.047,
  (Timestamp('2015-05-19 00:00:00'), 'S9'): 41.636,
  (Timestamp('2015-05-21 00:00:00'), '19'): 42.137,
  (Timestamp('2015-05-22 00:00:00'), 'C3'): 42.178999999999995,
 'Col4': (Timestamp('2015-05-14 00:00:00'), '10'): 44.950001,
  (Timestamp('2015-05-14 00:00:00'), '11'): 44.75,
  (Timestamp('2015-05-14 00:00:00'), 'C3'): 44.360001000000004,
  (Timestamp('2015-05-19 00:00:00'), '3'): 40.98,
  (Timestamp('2015-05-19 00:00:00'), 'S9'): 42.790001000000004,
  (Timestamp('2015-05-21 00:00:00'), '19'): 43.68,
  (Timestamp('2015-05-22 00:00:00'), 'C3'): 43.490002000000004

df = pd.Dataframe(d)

然后您可以使用partial string indexing 选择日期范围:

df.loc['2015-05-14':'2015-05-19']

输出:

                    Col1     Col2    Col3       Col4
2015-05-14 10  81.370003  6.11282  39.753  44.950001
           11  80.419998  6.03380  39.289  44.750000
           C3  80.879997  6.00746  41.249  44.360001
2015-05-19 3   80.629997  6.10465  41.047  40.980000
           S9  80.550003  6.14370  41.636  42.790001

【讨论】:

这很有趣,所以它只是假设我想要第一级?但是,我想使用一种控制级别的方法(例如,如果日期是第二个索引) @sapo_cosmico 在这种情况下,您可以执行df1.sort_index().loc(axis=0)[:,'2015-05-14':'2015-05-19'] Where df1 = df.swaplevel(0,1) 之类的操作。

以上是关于在 Pandas 多索引中选择日期范围的正确方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

在多个时间范围内聚合/重采样 pandas 多索引数据帧并预测 ARIMA

日期时间日历:在单个输入字段中选择日期范围

在 db2 SQL 中选择日期范围

在 Pandas 多索引 DataFrame 上扩展指数权重,其中每一天都是一个矩阵

pandas中的多索引(时间序列)切片错误

sql 从系统中选择日期范围