新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义

Posted 杨鑫newlfe

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义相关的知识,希望对你有一定的参考价值。

什么是Hudi?

使用Hudi管理数据和基本概念理解,不处理和使用。仅是管理数据。发稿时,当前最新版本是V0.10.0

为什么学习Apache Hudi

Hudi是一个数据湖的框架。通过目录和表(分区,列式存储)进行管理。诞生于Uber并开源。

数据仓库 

Data Warehouse 简称数仓、DW,是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果是为企业提供决策支持(Decision Support)。 数据仓库的特点是本身产生数据,也不最终消费数据。 每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上分为三层: 操作型数据层(ODS) 数据仓库(DW) 数据应用(DA/DM)

以上是关于新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义的主要内容,如果未能解决你的问题,请参考以下文章

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

使用 Flink Hudi 构建流式数据湖平台

百信银行基于 Apache Hudi 实时数据湖演进方案

百信银行基于 Apache Hudi 实时数据湖演进方案

百信银行基于 Apache Hudi 实时数据湖演进方案

Apache Hudi 在袋鼠云数据湖平台的设计与实践