pandas 是不是读取完整的数据文件并将其存储在数据框中?在 pandas 中加载 100mb 文件是不是有效?
Posted
技术标签:
【中文标题】pandas 是不是读取完整的数据文件并将其存储在数据框中?在 pandas 中加载 100mb 文件是不是有效?【英文标题】:Does pandas read the full data file and stores it in a data frame? Is it efficient to load a 100mb file in pandas?pandas 是否读取完整的数据文件并将其存储在数据框中?在 pandas 中加载 100mb 文件是否有效? 【发布时间】:2019-12-02 09:24:04 【问题描述】:我想使用 pandas 加载一个大小约为 100mb 的文件。我知道我们可以加载,但我想知道文件大小是否会影响程序的效率。有什么方法可以有效地加载文件?
【问题讨论】:
出于这些考虑,我通常使用简单的启发式算法:如果它适合我的消费设备的内存,Pandas 可以相当有效地使用它。到目前为止,这个经验法则还没有让我失望——但话又说回来,我经常将大于几 GB 的数据文件分块。 【参考方案1】:是的,性能会受到影响,有时系统会变慢。
可以尝试以table的形式读取数据,也可以使用chunksize。这将提高效率
【讨论】:
【参考方案2】:我个人使用 Pandas 处理大小在几千字节到几千兆字节之间的文件,没有任何问题。正如here 所说,Pandas 对 100MB 到 1GB 的数据非常有效。这几乎就是我在使用 Pandas 时观察到的。
【讨论】:
以上是关于pandas 是不是读取完整的数据文件并将其存储在数据框中?在 pandas 中加载 100mb 文件是不是有效?的主要内容,如果未能解决你的问题,请参考以下文章
是否可以在 Dash 中上传 csv 文件并将其存储为 pandas DataFrame?
迭代 4 个 pandas 数据框列并将它们存储到 4 个列表中,其中一个 for 循环而不是 4 个 for 循环