更新不在磁盘上的大型 DataFrame 对象。
Posted
技术标签:
【中文标题】更新不在磁盘上的大型 DataFrame 对象。【英文标题】:Updating large DataFrame objects not on disk. 【发布时间】:2013-05-23 06:14:40 【问题描述】:我一直在通过处理在线获得的大型 csv 文件来了解 Pandas 的来龙去脉,这些文件是财务数据的时间序列。到目前为止,我已经弄清楚了如何使用 HDFStore 来存储和操作它们,但是我想知道是否存在一种更简单的方法来更新文件,而无需重新下载整个源文件?
我问是因为我正在处理 12 ~300+MB 的文件,这些文件每 15 分钟更新一次。虽然我不需要持续更新,但如果不下载我已经拥有的内容,那就太好了。
【问题讨论】:
您能更具体地说明您要更新的内容吗?请同时显示一些代码 你只能下载你想要的位然后附加到现有的数据帧吗?这听起来更像是您的数据源的问题,而不是 Pandas 的问题。也许你可以澄清一下。 看起来你所说的是流式传输,它没有内置在 pandas 中(还没有?)... 如果没有提问者的互动,这个问题不会以目前的形式回答 【参考方案1】:来自Continuum 的Blaze 库应该可以帮助您。可以找介绍here。
【讨论】:
以上是关于更新不在磁盘上的大型 DataFrame 对象。的主要内容,如果未能解决你的问题,请参考以下文章
((Python)pandas.DataFrame不在每个for循环周期中更新值,为什么?