如何减少在 Amazon Redshift 中将 pandas 数据帧写入表的时间





我正在使用这个在 Amazon Redshift 中编写 python pandas 数据框 -

df.to_sql('table_name', redshiftEngine, index = False, if_exists = 'replace' )

虽然我的数据框只有几千行和 50-100 列,但写一张表需要 15-20 分钟。我想知道这是否是 redshift 的正常表现?有什么办法可以优化这个过程,加快写表速度?



更好的方法是使用 pandas 将数据帧存储为 CSV,将其上传到 S3 并使用 COPY 功能加载到 Redshift。这种方法甚至可以轻松处理数亿行。一般来说,Redshift 的写入性能不是很好——它是用来处理大量 ETL 操作(如 COPY)转储的数据负载。


single insert statement and commit,使用copy 导入数百万行,您将花费几乎相同的时间,加上@rvd 所说的,您甚至可以并行使用menifest 文件选项。

