更新不在磁盘上的大型 DataFrame 对象。

Posted 2023-03-11

技术标签:

【中文标题】更新不在磁盘上的大型 DataFrame 对象。【英文标题】：Updating large DataFrame objects not on disk. 【发布时间】：2013-05-23 06:14:40 【问题描述】：

我一直在通过处理在线获得的大型 csv 文件来了解 Pandas 的来龙去脉，这些文件是财务数据的时间序列。到目前为止，我已经弄清楚了如何使用 HDFStore 来存储和操作它们，但是我想知道是否存在一种更简单的方法来更新文件，而无需重新下载整个源文件？

我问是因为我正在处理 12 ~300+MB 的文件，这些文件每 15 分钟更新一次。虽然我不需要持续更新，但如果不下载我已经拥有的内容，那就太好了。

【问题讨论】：

您能更具体地说明您要更新的内容吗？请同时显示一些代码你只能下载你想要的位然后附加到现有的数据帧吗？这听起来更像是您的数据源的问题，而不是 Pandas 的问题。也许你可以澄清一下。看起来你所说的是流式传输，它没有内置在 pandas 中（还没有？）... 如果没有提问者的互动，这个问题不会以目前的形式回答 【参考方案1】：

来自Continuum 的Blaze 库应该可以帮助您。可以找介绍here。

【讨论】：

以上是关于更新不在磁盘上的大型 DataFrame 对象。的主要内容，如果未能解决你的问题，请参考以下文章

（（Python）pandas.DataFrame不在每个for循环周期中更新值，为什么？

使用部分映射更新 pandas DataFrame 的列

网易云轻舟微服务在大型快递企业上的应用

将对象列表到 DataFrame 到 Azure 上的 MySQL DB

disk io 与 GFS2 使用

更新大型表上的行的最高效方法