Hive--12---文件存储格式
Posted 高高for 循环
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive--12---文件存储格式相关的知识,希望对你有一定的参考价值。
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
文件存储格式
Hive支持的存储数据的格式主要有 :TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。
- TEXTFILE
- SEQUENCEFILE
- ORC
- PARQUET
列式存储 和行式存储
TEXTFILE , SEQUENCEFILE 的存储格式都是基于行式存储;
ORC , PARQUET 的存储格式都是基于列式存储;
1.TextFile格式
默认格式,行式存储, 数据不做压缩,磁盘开销大,数据解析开销大
2.Sequence 格式
行式存储 ,sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件Flat File
3.Orc格式
列式存储,对整个表进行按行数切分为多段, 每一段进列式存储
4.Parquet格式
列式存储,二进制方式进行存储, spark默认格式
主流文件存储格式—对比
1. 存储文件的压缩比
2.存储文件的查询速度
查询速度相近。
3.生产中
以上是关于Hive--12---文件存储格式的主要内容,如果未能解决你的问题,请参考以下文章