hive压缩

Posted 见贤思小齐,知足常乐呵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive压缩相关的知识,希望对你有一定的参考价值。

1. 常用  rcfile + gzip

             parquet + snappy

2. 压缩比,参考

  1. TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理。
  2. SequenceFile压缩率最低,查询速度一般,将数据存放到sequenceFile格式的hive表中,这时数据就会压缩存储。三种压缩格式NONE,RECORD,BLOCK。是可分割的文件格式。
  3. RCfile压缩率最高,查询速度最快,数据加载最慢。
  4. 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势。
  5. 在hive中使用压缩需要灵活的方式:

如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间;

而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snappy 的方式,这样可以整体提升hive的执行速度。

至于lzo的方式,也可以在计算过程中使用,只不过综合考虑(速度和压缩比)还是考虑snappy适宜。

以上是关于hive压缩的主要内容,如果未能解决你的问题,请参考以下文章

hive基础知识四

hive压缩

「Hive进阶篇」详解存储格式及压缩方式

大数据技术之_08_Hive学习_04_压缩和存储(Hive高级)+ 企业级调优(Hive优化)

Hive文件存储格式和hive数据压缩

Hive:第 9 章 压缩和存储