如何从镶木地板文件创建表格

Posted

技术标签:

【中文标题】如何从镶木地板文件创建表格【英文标题】:How can I create table from parquet file 【发布时间】:2021-04-14 19:44:18 【问题描述】:

给定一个 parquet 文件,我如何将与其关联的表创建到我的 redshift 数据库中?哦 parquet 文件的格式很简洁。

【问题讨论】:

Amazon Redshift Can Now COPY from Parquet and ORC File Formats 您的真正问题是不知道文件中存储了哪些列? @Parsifal 是的,我不想猜测列类型,但除非我先创建表,否则我无法复制数据。 【参考方案1】:

如果您要处理多个文件,尤其是长期文件,那么我认为最好的解决方案是将它们上传到 S3 存储桶并运行 Glue crawler。

除了填充 Glue 数据目录之外,您还可以使用此信息为 Redshift Spectrum 配置外部表,并使用 create table as select 创建您的集群表。

如果这只是一次性任务,那么我过去使用过parquet-tools。我使用的版本是 Java 库,但我看到 there's also a version on PyPi。

【讨论】:

以上是关于如何从镶木地板文件创建表格的主要内容,如果未能解决你的问题,请参考以下文章

如何从镶木地板文件中获取架构/列名?

重命名后如何从镶木地板文件中恢复旧列值?

从镶木地板表中选择在蜂巢中不返回任何内容

熊猫:从镶木地板文件中读取前 n 行?

Spark:从镶木地板中读取一个 int 列,只要

从镶木地板自动推断模式/有选择地将字符串转换为浮点数