Hive--12---文件存储格式

Posted 高高for 循环

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive--12---文件存储格式相关的知识,希望对你有一定的参考价值。

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


文件存储格式

Hive支持的存储数据的格式主要有 :TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。

  • TEXTFILE
  • SEQUENCEFILE
  • ORC
  • PARQUET

列式存储 和行式存储



TEXTFILE , SEQUENCEFILE 的存储格式都是基于行式存储

ORC , PARQUET 的存储格式都是基于列式存储

1.TextFile格式

默认格式,行式存储, 数据不做压缩,磁盘开销大,数据解析开销大

2.Sequence 格式

行式存储 ,sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件Flat File


3.Orc格式

列式存储,对整个表进行按行数切分为多段, 每一段进列式存储




4.Parquet格式

列式存储,二进制方式进行存储, spark默认格式




主流文件存储格式—对比

1. 存储文件的压缩比



2.存储文件的查询速度

查询速度相近

3.生产中

以上是关于Hive--12---文件存储格式的主要内容,如果未能解决你的问题,请参考以下文章

Hive实践(hive0.12)

Hive 数据类型:双精度和比例

Hive文件存储格式和hive数据压缩

Hive文件存储格式

python存储数据的操作(csv格式文件,Excel表格文件)!!!

快速了解HIVE文件存储格式