hive使用parquet及压缩数据大小前后对比
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive使用parquet及压缩数据大小前后对比相关的知识,希望对你有一定的参考价值。
参考技术A 这里提醒一下,是不是说pzrquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。所以下面使用parquet和lzo的压缩效果特别好。不可以将txt数据直接加载到parquet的表里面,需要创建临时的txt存储格式的表
然后在创建parquet的表
加载数据
可以看到这里生成了两个文件,加起来5.52M,可见大大的将原始的txt进行了压缩
加载数据到emp_parquet_lzo
数据相比较于仅仅使用parquet,数据被进一步的压缩了。但是这里提醒一下,是不是说pzrquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。
txt文本文件,在使用parquet加压缩格式,相比较于仅仅使用parquet,可以更进一步的将数据压缩。
parquet格式支持有四种压缩,分别是lzo,gzip,snappy,uncompressed,在数据量不大的情况下,四种压缩的区别也不是太大。
也就是分区下面还可以有分区的,如上面的 partitioned by (dt string,hour string) 在插入数据的时候使用逗号分隔,partition(dt='2020-01-01',hour='01')
首先要声明一下,我的hive使用的执行引擎是tez,替换了默认的mapreduce执行引擎。
我们看一下执行页面,这里可以看到形成了两个map,这里是map-only,一般数据的加载操作都是map-only的,所以,有多少的map,就会产生几个文件。
可以是hadoop的mapreduce不是128M的splitsize吗,这个文件才74M,为什么会产出两个map,这里我们看看tez的执行日志
从图片可以看出,这里是tez把74M的文件分成了两个,这里的52428800是50M,也就是这里的splitsize不是hadoop的mr的默认的128M,而是这里的50M,所以,74M的文件会被分为两个,一个是50M,一个是24M,.然后我们看上面的emp_parquet的文件,一个式3.7M,也是1.8M,正好和50M和24M的比例是对应的。
以上是关于hive使用parquet及压缩数据大小前后对比的主要内容,如果未能解决你的问题,请参考以下文章