更新不在磁盘上的大型 DataFrame 对象。

Posted

技术标签:

【中文标题】更新不在磁盘上的大型 DataFrame 对象。【英文标题】:Updating large DataFrame objects not on disk. 【发布时间】:2013-05-23 06:14:40 【问题描述】:

我一直在通过处理在线获得的大型 csv 文件来了解 Pandas 的来龙去脉,这些文件是财务数据的时间序列。到目前为止,我已经弄清楚了如何使用 HDFStore 来存储和操作它们,但是我想知道是否存在一种更简单的方法来更新文件,而无需重新下载整个源文件?

我问是因为我正在处理 12 ~300+MB 的文件,这些文件每 15 分钟更新一次。虽然我不需要持续更新,但如果不下载我已经拥有的内容,那就太好了。

【问题讨论】:

您能更具体地说明您要更新的内容吗?请同时显示一些代码 你只能下载你想要的位然后附加到现有的数据帧吗?这听起来更像是您的数据源的问题,而不是 Pandas 的问题。也许你可以澄清一下。 看起来你所说的是流式传输,它没有内置在 pandas 中(还没有?)... 如果没有提问者的互动,这个问题不会以目前的形式回答 【参考方案1】:

来自Continuum 的Blaze 库应该可以帮助您。可以找介绍here。

【讨论】:

以上是关于更新不在磁盘上的大型 DataFrame 对象。的主要内容,如果未能解决你的问题,请参考以下文章

((Python)pandas.DataFrame不在每个for循环周期中更新值,为什么?

使用部分映射更新 pandas DataFrame 的列

网易云轻舟微服务在大型快递企业上的应用

将对象列表到 DataFrame 到 Azure 上的 MySQL DB

disk io 与 GFS2 使用

更新大型表上的行的最高效方法