如何从镶木地板文件创建表格
Posted
技术标签:
【中文标题】如何从镶木地板文件创建表格【英文标题】:How can I create table from parquet file 【发布时间】:2021-04-14 19:44:18 【问题描述】:给定一个 parquet 文件,我如何将与其关联的表创建到我的 redshift 数据库中?哦 parquet 文件的格式很简洁。
【问题讨论】:
Amazon Redshift Can Now COPY from Parquet and ORC File Formats 您的真正问题是不知道文件中存储了哪些列? @Parsifal 是的,我不想猜测列类型,但除非我先创建表,否则我无法复制数据。 【参考方案1】:如果您要处理多个文件,尤其是长期文件,那么我认为最好的解决方案是将它们上传到 S3 存储桶并运行 Glue crawler。
除了填充 Glue 数据目录之外,您还可以使用此信息为 Redshift Spectrum 配置外部表,并使用 create table as select
创建您的集群表。
如果这只是一次性任务,那么我过去使用过parquet-tools
。我使用的版本是 Java 库,但我看到 there's also a version on PyPi。
【讨论】:
以上是关于如何从镶木地板文件创建表格的主要内容,如果未能解决你的问题,请参考以下文章