填补熊猫数据框中的日期空白
Posted
技术标签:
【中文标题】填补熊猫数据框中的日期空白【英文标题】:Filling date gaps in pandas dataframe 【发布时间】:2015-04-12 13:22:25 【问题描述】:我有以日期时间为索引的 Pandas DataFrame(从 .csv 加载)。每天有/必须成为一个条目。 问题是我有差距,即有些日子我根本没有数据。 在间隙中插入行(天)的最简单方法是什么?还有一种方法可以控制作为数据插入列中的内容!说 0 或复制前一天信息或填充从上一个日期到下一个日期数据值范围内的滑动增加/减少值。
谢谢
这是缺少 01-03 和 01-04 的示例:
In [60]: df['2015-01-06':'2015-01-01']
Out[60]:
Rate High (est) Low (est)
Date
2015-01-06 1.19643 0.0000 0.0000
2015-01-05 1.20368 1.2186 1.1889
2015-01-02 1.21163 1.2254 1.1980
2015-01-01 1.21469 1.2282 1.2014
仍在尝试,但这似乎解决了问题:
df.set_index(pd.DatetimeIndex(df.Date),inplace=True)
然后重新采样...原因是导入带有 header-col-name Date 的 .csv 实际上并不是创建 date-time-index,而是 Frozen-list 无论如何。 resample() 期待:如果 isinstance(ax, DatetimeIndex): .....
这是我的最终解决方案:
#make dates the index
self.df.set_index(pd.DatetimeIndex(self.df.Date), inplace=True)
#fill the gaps
self.df = self.df.resample('D',fill_method='pad')
#fix the Date column
self.df.Date = self.df.index.values
我必须修复 Date 列,因为 resample() 只允许您填充它。 但是它正确地修复了索引,所以我可以用它来修复 Date 列。
这里是修正后的数据截图:
2015-01-29 2015-01-29 1.13262 0.0000 0.0000
2015-01-30 2015-01-30 1.13161 1.1450 1.1184
2015-01-31 2015-01-31 1.13161 1.1450 1.1184
2015-02-01 2015-02-01 1.13161 1.1450 1.1184
01-30, 01-31 是新生成的数据。
【问题讨论】:
df.index 应该是DatetimeIndex
,我建议使用 pd.to_datetime
而不是 pd.DatetimeIndex 构造函数。 df.index.names
是“索引标题”(列被标记,例如“Rate”,索引的级别也是如此)。
我可以在 cvs 导入期间这样做吗 (pd.read_csv())
是的,parse_dates=True
可以解决问题。
您的第一个示例显示缺少 01/03 和 01/04,但您的“更正后的数据”显示了完全不同的范围,声称 1/30 和 1/31 是新生成的。似乎您希望在前后显示相同的时间段。
更新:fill_method="pad"
已被弃用。请改用.resample(...).pad()
【参考方案1】:
您可以按天重新采样,例如如果每天有多个条目,则使用平均值:
df.resample('D', how='mean')
然后您可以ffill
将 NaN 替换为前几天的结果。
请参阅文档中的 up and down sampling。
【讨论】:
现在您已经使用 ohlc 进行了更新,我不确定您是否可以在已经 ohlc 数据帧上使用 how='ohlc'(尽管存在一个问题),您可以单独重新采样每一列(即高与how='max',低与how='min',率与how='mean')。那就是如果你一天有多个条目,如果你不是很好。 谢谢.. 我得到:TypeError:仅对 DatetimeIndex、TimedeltaIndex 或 PeriodIndex 有效?当我尝试它时... df.index.names 回馈: FrozenList([u'Date']) ,如果它意味着什么.. @user1019129 您的索引不是 DatetimeIndex,您可以使用df.index = pd.to_datetime(df.index)
来实现。
相关。我正在寻找填补每日空白并将它们解释为 0(例如,那天没有要收集的数据)。 fillna
成功了。 df2 = df.resample('D', how='mean').fillna(0)
以上是关于填补熊猫数据框中的日期空白的主要内容,如果未能解决你的问题,请参考以下文章