在 Pandas 多索引中选择日期范围的正确方法是啥?
Posted
技术标签:
【中文标题】在 Pandas 多索引中选择日期范围的正确方法是啥?【英文标题】:What is the proper way of selecting date ranges in Pandas multi-indexes?在 Pandas 多索引中选择日期范围的正确方法是什么? 【发布时间】:2018-10-08 20:05:50 【问题描述】:在 Pandas 多索引中选择日期范围的正确方法是什么?
我有一个多索引数据框,如下所示:
如果我想选择某一天,使用xs
很简单:
data.xs('2011-11-11', level='Date').head()
但是,如果我想选择一个日期范围,我不能。以下所有内容都给我一个Invalid Syntax
错误:
data.xs('2011-10-10':'2011-11-11', level='Date').head()
data.xs(['2011-10-10':'2011-11-11'], level='Date').head()
注意 #1:我正在寻找一种使用优雅 Pandas 功能的方法。使用 4 或 5 行代码自然很容易解决问题,问题在于“正确的方法”是什么。
注意 #2:我见过 this answer,但这并没有涵盖这个案例。
【问题讨论】:
【参考方案1】:使用上一个问题的数据:
d = 'Col1': (Timestamp('2015-05-14 00:00:00'), '10'): 81.370003,
(Timestamp('2015-05-14 00:00:00'), '11'): 80.41999799999999,
(Timestamp('2015-05-14 00:00:00'), 'C3'): 80.879997,
(Timestamp('2015-05-19 00:00:00'), '3'): 80.629997,
(Timestamp('2015-05-19 00:00:00'), 'S9'): 80.550003,
(Timestamp('2015-05-21 00:00:00'), '19'): 80.480003,
(Timestamp('2015-05-22 00:00:00'), 'C3'): 80.540001,
'Col2': (Timestamp('2015-05-14 00:00:00'), '10'): 6.11282,
(Timestamp('2015-05-14 00:00:00'), '11'): 6.0338,
(Timestamp('2015-05-14 00:00:00'), 'C3'): 6.00746,
(Timestamp('2015-05-19 00:00:00'), '3'): 6.10465,
(Timestamp('2015-05-19 00:00:00'), 'S9'): 6.1437,
(Timestamp('2015-05-21 00:00:00'), '19'): 6.16096,
(Timestamp('2015-05-22 00:00:00'), 'C3'): 6.1391599999999995,
'Col3': (Timestamp('2015-05-14 00:00:00'), '10'): 39.753,
(Timestamp('2015-05-14 00:00:00'), '11'): 39.289,
(Timestamp('2015-05-14 00:00:00'), 'C3'): 41.248999999999995,
(Timestamp('2015-05-19 00:00:00'), '3'): 41.047,
(Timestamp('2015-05-19 00:00:00'), 'S9'): 41.636,
(Timestamp('2015-05-21 00:00:00'), '19'): 42.137,
(Timestamp('2015-05-22 00:00:00'), 'C3'): 42.178999999999995,
'Col4': (Timestamp('2015-05-14 00:00:00'), '10'): 44.950001,
(Timestamp('2015-05-14 00:00:00'), '11'): 44.75,
(Timestamp('2015-05-14 00:00:00'), 'C3'): 44.360001000000004,
(Timestamp('2015-05-19 00:00:00'), '3'): 40.98,
(Timestamp('2015-05-19 00:00:00'), 'S9'): 42.790001000000004,
(Timestamp('2015-05-21 00:00:00'), '19'): 43.68,
(Timestamp('2015-05-22 00:00:00'), 'C3'): 43.490002000000004
df = pd.Dataframe(d)
然后您可以使用partial string indexing 选择日期范围:
df.loc['2015-05-14':'2015-05-19']
输出:
Col1 Col2 Col3 Col4
2015-05-14 10 81.370003 6.11282 39.753 44.950001
11 80.419998 6.03380 39.289 44.750000
C3 80.879997 6.00746 41.249 44.360001
2015-05-19 3 80.629997 6.10465 41.047 40.980000
S9 80.550003 6.14370 41.636 42.790001
【讨论】:
这很有趣,所以它只是假设我想要第一级?但是,我想使用一种控制级别的方法(例如,如果日期是第二个索引) @sapo_cosmico 在这种情况下,您可以执行df1.sort_index().loc(axis=0)[:,'2015-05-14':'2015-05-19']
Where df1 = df.swaplevel(0,1)
之类的操作。以上是关于在 Pandas 多索引中选择日期范围的正确方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章
在多个时间范围内聚合/重采样 pandas 多索引数据帧并预测 ARIMA