hive使用parquet及压缩数据大小前后对比

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive使用parquet及压缩数据大小前后对比相关的知识,希望对你有一定的参考价值。

参考技术A 这里提醒一下,是不是说pzrquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。所以下面使用parquet和lzo的压缩效果特别好。

不可以将txt数据直接加载到parquet的表里面,需要创建临时的txt存储格式的表

然后在创建parquet的表

加载数据

可以看到这里生成了两个文件,加起来5.52M,可见大大的将原始的txt进行了压缩

加载数据到emp_parquet_lzo

数据相比较于仅仅使用parquet,数据被进一步的压缩了。但是这里提醒一下,是不是说pzrquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。

txt文本文件,在使用parquet加压缩格式,相比较于仅仅使用parquet,可以更进一步的将数据压缩。

parquet格式支持有四种压缩,分别是lzo,gzip,snappy,uncompressed,在数据量不大的情况下,四种压缩的区别也不是太大。

 也就是分区下面还可以有分区的,如上面的 partitioned by (dt string,hour string) 在插入数据的时候使用逗号分隔,partition(dt='2020-01-01',hour='01')

首先要声明一下,我的hive使用的执行引擎是tez,替换了默认的mapreduce执行引擎。
我们看一下执行页面,这里可以看到形成了两个map,这里是map-only,一般数据的加载操作都是map-only的,所以,有多少的map,就会产生几个文件。

可以是hadoop的mapreduce不是128M的splitsize吗,这个文件才74M,为什么会产出两个map,这里我们看看tez的执行日志
  从图片可以看出,这里是tez把74M的文件分成了两个,这里的52428800是50M,也就是这里的splitsize不是hadoop的mr的默认的128M,而是这里的50M,所以,74M的文件会被分为两个,一个是50M,一个是24M,.然后我们看上面的emp_parquet的文件,一个式3.7M,也是1.8M,正好和50M和24M的比例是对应的。

以上是关于hive使用parquet及压缩数据大小前后对比的主要内容,如果未能解决你的问题,请参考以下文章

关于hive的存储格式

hive parquet table 配置使用压缩

「Hive进阶篇」详解存储格式及压缩方式

一文彻底搞懂Hive的数据存储与压缩

2021年大数据Hive:Hive的数据存储格式

parquet和orc