新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义
Posted 杨鑫newlfe
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义相关的知识,希望对你有一定的参考价值。
什么是Hudi?
使用Hudi管理数据和基本概念理解,不处理和使用。仅是管理数据。发稿时,当前最新版本是V0.10.0
为什么学习Apache Hudi
Hudi是一个数据湖的框架。通过目录和表(分区,列式存储)进行管理。诞生于Uber并开源。数据仓库
Data Warehouse 简称数仓、DW,是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果是为企业提供决策支持(Decision Support)。 数据仓库的特点是本身产生数据,也不最终消费数据。 每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上分为三层: 操作型数据层(ODS) 数据仓库(DW) 数据应用(DA/DM)以上是关于新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义的主要内容,如果未能解决你的问题,请参考以下文章