Hive压缩格式的生产应用
Posted 若泽大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive压缩格式的生产应用相关的知识,希望对你有一定的参考价值。
一.Hive参数设置
可选配置配置
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.BZip2Codec
com.hadoop.compression.lzo.LzoCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec
设置是否压缩
hive.exec.compress.output
设置压缩Reduce类型输出
mapreduce.output.fileoutputformat.compress.codec
设置中间Map压缩类型
hive.intermediate.compression.codec
二.生产案例应用
1.以BZip2压缩格式进行压缩
1.1 如下配置
core-site.xml
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.BZip2Codec
com.hadoop.compression.lzo.LzoCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec
</value>
</property>
mapred-site.xml
<property>
<name>mapreduce.output.fileoutputformat.compress</name
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
1.2 原表数据大小: 18.1M
1.3 以Bzip2压缩格式进行压缩
也可以直接显性set设置压缩格式
hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
hive > create table page_views_bzip2
> ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
> as select * from page_views;
1.4 查看Bzip2压缩格式后的大小: 3.6M
2.以Snappy压缩格式进行压缩
无需修改mapred-site.xml ,直接显性set设置压缩格式也是可以的。
hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
hive> create table page_views_snappy
> ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
> as select * from page_views;
查看Snappy压缩格式后的大小: 8.4M
如有疑问,欢迎私信本星星。
打个小小的广告哟
1.若泽数据 官网: www.ruozedata.com
(每周3篇大数据相关原创文章,联系客服领取若泽2017+2018年所有腾讯课堂公开课视频,尚未外泄,独此1家)
3.
4.若泽大数据--星星:ruoze_star
以上是关于Hive压缩格式的生产应用的主要内容,如果未能解决你的问题,请参考以下文章