Impala 中的表格压缩

Posted

技术标签:

【中文标题】Impala 中的表格压缩【英文标题】:Compression of table in the Impala 【发布时间】:2020-06-22 02:03:39 【问题描述】:

我想在 Impala 中以 parquet 压缩方式压缩表。有什么方法可以压缩该表,因为 HDFS 中有 1000 个文件到该特定表。

【问题讨论】:

【参考方案1】:

Parquet 是一种编码格式,而不是一种压缩格式。 Snappy 是 Parquet 常用的一种压缩格式


不清楚您的原始文件类型是什么,但通常简单地运行INSERT OVERWRITE INTO 查询会导致文件被重新收集并“压缩”成较少的数量。

【讨论】:

以上是关于Impala 中的表格压缩的主要内容,如果未能解决你的问题,请参考以下文章

如何将word文档和excel表格打包成压缩包

word表格里插入数码图片问题

Impala 外部表读取未压缩文件但具有名称 (*.csv.gz)

表格建模

excel表格保护怎样解除密码

如何阻止 html 压缩内容?