hive parquet table 配置使用压缩
Posted cenglinjinran
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive parquet table 配置使用压缩相关的知识,希望对你有一定的参考价值。
创建parquet table :
create table mytable(a int,b int) STORED AS PARQUET;
创建带压缩的parquet table:
create table mytable(a int,b int) STORED AS PARQUET TBLPROPERTIES(‘parquet.compression‘=‘SNAPPY‘);
如果原来创建表的时候没有指定压缩,后续可以通过修改表属性的方式添加压缩:
ALTER TABLE mytable SET TBLPROPERTIES (‘parquet.compression‘=‘SNAPPY‘);
或者在写入的时候set parquet.compression=SNAPPY;
不过只会影响后续入库的数据,原来的数据不会被压缩,需要重跑原来的数据。
采用压缩之后大概可以降低1/3的存储大小。
---------------------
作者:xiao_jun_0820
来源:CSDN
原文:https://blog.csdn.net/xiao_jun_0820/article/details/76893331
版权声明:本文为博主原创文章,转载请附上博文链接!
以上是关于hive parquet table 配置使用压缩的主要内容,如果未能解决你的问题,请参考以下文章
spark sql架构和原理——和Hive类似 dataframe无非是内存中的table而已 底层原始数据存储可以是parquet hive json avro等