数据湖之Hudi:什么是数据湖

Posted 电光闪烁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据湖之Hudi:什么是数据湖相关的知识,希望对你有一定的参考价值。

目录

0. 相关文章链接

1. 什么是数据仓库

2. 什么是数据湖

3. 数据仓库Data Warehouse与数据湖DataLake 区别

4. 湖仓一体DataLake House

5. 数据湖总结


0. 相关文章链接

大数据基础知识点 文章汇总

1. 什么是数据仓库

  • 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。

  • 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。

  • 数据仓库的特点是本身不生产数据,也不最终消费数据。

  • 每个企业根据自己的业务需求可以分成不同的层次。但是最基础的分层思想,理论上分为三个层:操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。

2. 什么是数据湖

  • 数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储设计模式,现在企业的数据仓库都会通过分层的方式将数据存储在文件夹、文件中。

  • 数据湖是一个集中式数据存储库,用来存储大量的原始数据,使用平面架构来存储数据。

  • 定义:一个以原始格式(通常是对象块或文件)存储数据的系统或存储库,通常是所有企业数据的单一存储

  • 数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。

  • 数据湖越来越多的用于描述任何的大型数据池,数据都是以原始数据方式存储,知道需要查询应用数据的时候才会开始分析数据需求和应用架构。

  • 数据湖中数据,用于报告、可视化、高级分析和机器学习等任务。

3. 数据仓库Data Warehouse与数据湖DataLake 区别

  • 数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。
  • 数据湖存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。

  • 数据湖并不能替代数据仓库,数据仓库在高效的报表和可视化分析中仍有优势。
  • 数据仓库:使用良好范式规范数据,无法生成数据所需的洞察。
  • 数据湖:新的原始数据存储和处理范式,缺乏结构和治理,会迅速沦为“数据沼泽”。

4. 湖仓一体DataLake House

  • Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。

  • LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。

  • 湖仓一体LakeHouse:是一种结合数据湖和数据仓库优势的新范式,从根本上简化企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加速创新。

5. 数据湖总结

        数据湖技术本质上:实现全量数据单一存储的高级架构,可以存储任意规模、任意类型、需求各种速度的数据。需任何预处理,消除数据采集和存储的复杂性,加速应用数据。


注:Hudi系列博文为通过对Hudi官网学习记录所写,其中有加入个人理解,如有不足,请各位读者谅解☺☺☺

注:其他相关文章链接由此进(包括Hudi在内的各大数据相关博文) -> 大数据基础知识点 文章汇总


以上是关于数据湖之Hudi:什么是数据湖的主要内容,如果未能解决你的问题,请参考以下文章

数据湖之Hudi:Hudi与Spark和HDFS的集成安装使用

数据湖之Hudi基础:核心原理

数据湖之Hudi源码编译

数据湖之基于flink+hudi+hive的实践

Hudi自带工具DeltaStreamer的实时入湖最佳实践

Hudi自带工具DeltaStreamer的实时入湖最佳实践