Impala 中的表格压缩
Posted
技术标签:
【中文标题】Impala 中的表格压缩【英文标题】:Compression of table in the Impala 【发布时间】:2020-06-22 02:03:39 【问题描述】:我想在 Impala 中以 parquet 压缩方式压缩表。有什么方法可以压缩该表,因为 HDFS 中有 1000 个文件到该特定表。
【问题讨论】:
【参考方案1】:Parquet 是一种编码格式,而不是一种压缩格式。 Snappy 是 Parquet 常用的一种压缩格式
不清楚您的原始文件类型是什么,但通常简单地运行INSERT OVERWRITE INTO
查询会导致文件被重新收集并“压缩”成较少的数量。
【讨论】:
以上是关于Impala 中的表格压缩的主要内容,如果未能解决你的问题,请参考以下文章