read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输？

Posted 2023-04-15

技术标签:

【中文标题】read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输？【英文标题】：Does the S3 reader in read_csv() download files to disk first or does it use streaming? 【发布时间】：2016-04-05 22:01:56 【问题描述】：

我在 Pandas 中使用read_csv从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中，还是直接将传入的数据流式传输到内存中，而无需加载到磁盘的中间步骤。

我对 Spark 的 sqlContext.read.load 函数有同样的问题。

【问题讨论】：

也许你应该问另一个关于 sqlContext.read.load 的问题，因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度> 【参考方案1】：

pandas uses boto用于访问s3，其中does appear to stream文件数据。

【讨论】：

以上是关于read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输？的主要内容，如果未能解决你的问题，请参考以下文章

为啥来自 s3 的 dask read_csv 保留了这么多内存？

云中的 Zipfile 文件（amazon s3），无需先将其写入本地文件（无写入权限）

允许搜寻器访问其他帐户中的Amazon S3存储桶

将文件从私有 S3 存储桶读取到 pandas 数据帧

golang aws-sdk-go 之 s3 服务

如何阅读pyspark中的特定列？