Hive压缩格式的生产应用

Posted 若泽大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive压缩格式的生产应用相关的知识,希望对你有一定的参考价值。

一.Hive参数设置

  • 可选配置配置

    org.apache.hadoop.io.compress.GzipCodec

    org.apache.hadoop.io.compress.DefaultCodec

    org.apache.hadoop.io.compress.BZip2Codec

    com.hadoop.compression.lzo.LzoCodec

    org.apache.hadoop.io.compress.Lz4Codec

    org.apache.hadoop.io.compress.SnappyCodec

  • 设置是否压缩

    hive.exec.compress.output

  • 设置压缩Reduce类型输出

    mapreduce.output.fileoutputformat.compress.codec

  • 设置中间Map压缩类型

    hive.intermediate.compression.codec 


二.生产案例应用

1.以BZip2压缩格式进行压缩

1.1  如下配置

  • core-site.xml

    <property>

        <name>io.compression.codecs</name>

        <value>

        org.apache.hadoop.io.compress.GzipCodec

        org.apache.hadoop.io.compress.DefaultCodec

        org.apache.hadoop.io.compress.BZip2Codec

        com.hadoop.compression.lzo.LzoCodec

        org.apache.hadoop.io.compress.Lz4Codec

        org.apache.hadoop.io.compress.SnappyCodec

        </value>

    </property>

  • mapred-site.xml   

        <property>

                <name>mapreduce.output.fileoutputformat.compress</name

                <value>true</value>

        </property>

        <property>

                <name>mapreduce.output.fileoutputformat.compress.codec</name>

                <value>org.apache.hadoop.io.compress.BZip2Codec</value>

        </property>


1.2 原表数据大小: 18.1M

1.3 以Bzip2压缩格式进行压缩

也可以直接显性set设置压缩格式

    hive> SET hive.exec.compress.output=true;

    hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;

    hive > create table page_views_bzip2

        > ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"

        > as select * from page_views;

1.4 查看Bzip2压缩格式后的大小: 3.6M

Hive压缩格式的生产应用




2.以Snappy压缩格式进行压缩

无需修改mapred-site.xml  ,直接显性set设置压缩格式也是可以的。

    hive> SET hive.exec.compress.output=true;

    hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

    hive> create table page_views_snappy

    > ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"

    > as select * from page_views;


查看Snappy压缩格式后的大小: 8.4M

Hive压缩格式的生产应用


如有疑问,欢迎私信本星星。



打个小小的广告哟Hive压缩格式的生产应用Hive压缩格式的生产应用Hive压缩格式的生产应用

1.若泽数据 官网:  www.ruozedata.com

每周3篇大数据相关原创文章,联系客服领取若泽2017+2018年所有腾讯课堂公开课视频,尚未外泄,独此1家

Hive压缩格式的生产应用

3.


4.若泽大数据--星星:ruoze_star


以上是关于Hive压缩格式的生产应用的主要内容,如果未能解决你的问题,请参考以下文章

「Hive进阶篇」详解存储格式及压缩方式

Hive文件存储格式和hive数据压缩

hive 的支持的文件类型与 压缩格式

快速了解HIVE文件存储格式

Hive支持的文件格式和压缩格式及各自特点

Hive:第 9 章 压缩和存储