如何将 S3 部分文件读入 pandas 数据框

Posted

技术标签:

【中文标题】如何将 S3 部分文件读入 pandas 数据框【英文标题】:How to read S3 part files into pandas dataframe 【发布时间】:2017-06-05 19:55:13 【问题描述】:

我已将数据从 redshift 卸载到 S3,卸载后我得到了 xx_0000_part_00 多个文件。

现在我想将这些文件读入 pandas 数据框。

我该怎么做?

谢谢, 索姆

【问题讨论】:

【参考方案1】:

您必须使用

将文件从 s3 导入本地或 ec2

aws s3 cp

命令。在本地获得文件后,只需通过 pandas 库读取它。

import pandas as pd
df = pd.read_csv('/file-path/filename')

PS - S3 部分文件只是一个带有您选择的分隔符的常规 csv 文件。 如果我做了一个错误的假设,请发表评论,我会重新调整我的答案。

【讨论】:

【参考方案2】:

如果你想从redshift获取数据到pandas(或从pandas获取数据到redshift),只需使用这个包:

https://github.com/agawronski/pandas_redshift

【讨论】:

以上是关于如何将 S3 部分文件读入 pandas 数据框的主要内容,如果未能解决你的问题,请参考以下文章

如何将单个镶木地板文件从 s3 读入 dask 数据帧?

如何将 Parquet 文件读入 Pandas DataFrame?

如何将带有文本信息的 1.3 GB csv 文件读入 Python 的 pandas 对象?

从 S3 将嵌套文本文件读入 spark 时出现内存错误

将大型 csv 文件从 S3 读入 R

将外部 SQL 文件读入 Pandas 数据框