read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?

Posted

技术标签:

【中文标题】read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?【英文标题】:Does the S3 reader in read_csv() download files to disk first or does it use streaming? 【发布时间】:2016-04-05 22:01:56 【问题描述】:

我在 Pandas 中使用read_csv从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中,还是直接将传入的数据流式传输到内存中,而无需加载到磁盘的中间步骤。

我对 Spark 的 sqlContext.read.load 函数有同样的问题。

【问题讨论】:

也许你应该问另一个关于 sqlContext.read.load 的问题,因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度> 【参考方案1】:

pandas uses boto用于访问s3,其中does appear to stream文件数据。

【讨论】:

以上是关于read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?的主要内容,如果未能解决你的问题,请参考以下文章

为啥来自 s3 的 dask read_csv 保留了这么多内存?

云中的 Zipfile 文件(amazon s3),无需先将其写入本地文件(无写入权限)

允许搜寻器访问其他帐户中的Amazon S3存储桶

将文件从私有 S3 存储桶读取到 pandas 数据帧

golang aws-sdk-go 之 s3 服务

如何阅读pyspark中的特定列?