Hive/Impala 中压缩 parquet 文件(例如 gz.parquet)的外部表

Posted

技术标签:

【中文标题】Hive/Impala 中压缩 parquet 文件(例如 gz.parquet)的外部表【英文标题】:External table from compressed parquet files (e.g., gz.parquet) in Hive/Impala 【发布时间】:2016-01-28 05:07:29 【问题描述】:

如何在 Hive/Impala 中从一组压缩的 parquet 文件(例如 gz.parquet)创建外部表?

【问题讨论】:

【参考方案1】:

如果文件夹有 _metadata 文件并且没有分区,那么你可以使用这个 SQL 命令:-

 CREATE EXTERNAL TABLE tablename LIKE PARQUET 'hdfs:///_metadata' STORED AS PARQUET LOCATION 'hdfs://folder_location_of_parquet'; .

【讨论】:

以上是关于Hive/Impala 中压缩 parquet 文件(例如 gz.parquet)的外部表的主要内容,如果未能解决你的问题,请参考以下文章

Hive/Impala 列评论在几个字符后被截断

Hive性能优化之表数据优化

在python中压缩文件

如何在 C# 中压缩(和解压缩)字节 []?

如何在 Git 中压缩提交?

在 R 中压缩或枚举?