read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?
Posted
技术标签:
【中文标题】read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?【英文标题】:Does the S3 reader in read_csv() download files to disk first or does it use streaming? 【发布时间】:2016-04-05 22:01:56 【问题描述】:我在 Pandas 中使用read_csv
从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中,还是直接将传入的数据流式传输到内存中,而无需加载到磁盘的中间步骤。
我对 Spark 的 sqlContext.read.load
函数有同样的问题。
【问题讨论】:
也许你应该问另一个关于 sqlContext.read.load 的问题,因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度> 【参考方案1】:pandas uses boto用于访问s3,其中does appear to stream文件数据。
【讨论】:
以上是关于read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?的主要内容,如果未能解决你的问题,请参考以下文章
为啥来自 s3 的 dask read_csv 保留了这么多内存?