数据湖:什么是Hudi

Posted Lansonli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据湖:什么是Hudi相关的知识,希望对你有一定的参考价值。


什么是Hudi

Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。

Hudi非常轻量级,可以作为lib与Spark、Flink进行集成,Hudi官网:

​https://hudi.apache.org数据湖(二):什么是Hudi_apachehttps://hudi.apache.org​

数据湖(二):什么是Hudi_数据恢复_02数据湖(二):什么是Hudi_数据_03

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:

  • 快速upsert,可插入索引。
  • 以原子方式操作数据并具有回滚功能。
  • 写入器和查询之间的快照隔离。
  • 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
  • 管理文件大小,使用统计数据布局。
  • 行和列数据的异步压缩。


以上是关于数据湖:什么是Hudi的主要内容,如果未能解决你的问题,请参考以下文章

数据湖 Hudi 学习一

数据湖之Hudi:什么是数据湖

Apache Hudi 数据湖概述

Apache Hudi 数据湖概述

Apache Hudi 数据湖概述

Apache Hudi 数据湖概述