如何将镶木地板文件从 s3 导入到 postgresql rds

Posted

技术标签:

【中文标题】如何将镶木地板文件从 s3 导入到 postgresql rds【英文标题】:how to import parquet files from s3 to postgresql rds 【发布时间】:2020-10-26 05:32:16 【问题描述】:

我正在尝试将 parquet 文件从 s3 加载到 AWS postgresql RDS。使用 aws_s3.table_import_from_s3 导入数据对于 csv 文件运行良好,但是当我尝试对 parquet 文件使用类似方法时,出现以下错误:

错误:编码“UTF8”的字节序列无效:0x00

在 AWS 文档中,我看到了自定义分隔符或 zip 文件的选项。是否可以导入拼花数据?

【问题讨论】:

你找到解决方法了吗? 【参考方案1】:

将数据导入 AWS PostgreSQL RDS 支持 COPY 的功能。虽然有 PostgreSQL 二进制文件格式,但它不支持 Parquet,因此要导入数据,您必须先将其转换为文本文件或 PostgreSQL 二进制文件格式。

【讨论】:

以上是关于如何将镶木地板文件从 s3 导入到 postgresql rds的主要内容,如果未能解决你的问题,请参考以下文章

将镶木地板从 AWS Kinesis firehose 写入 AWS S3

awswrangler 将镶木地板数据帧写入单个文件

如何使用 Spark 将镶木地板文件加载到 Hive 表中?

将镶木地板文件加载到红移时如何格式化时间戳字段?

如何使作业幂等于多次运行在S3中生成相同的结果文件

如何将镶木地板格式的特定列加载到 Redshift 光谱中?