数据仓库与数据湖的区别

Posted Jelly lee

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库与数据湖的区别相关的知识,希望对你有一定的参考价值。

数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。

1.什么是数据湖?

数据湖通常是一个庞大的存储库,以本机格式存储原始数据。数据湖的一个好处是它
可以存储不同结构的数据,而不仅仅是传统的结构化数据。每个存储的数据元素都有
一个唯一的标识符和元数据标记,因此在需要时可以更容易地查询。但是,当数据被
提取时,数据湖不需要预定义的模式。相反,数据科学家和其他分析师可以将架构应
用于数据集,并在提取过程完成后根据特定的分析需求对其进行筛选。

当数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数
据的不断涌入,架构选项已经增加到包括其他大数据平台。许多T供应商现在还支持
云中的数据湖,通常将Spak处理引擎和云对象存储服务结合起来。

2.什么是数据仓库

数据仓库是由业务应用程序生成或收集的数据的存储库,然后存储用于预定的分析目
的。大多数数据仓库都建立在关系数据库上,因此,它们确实对数据应用了预定义的
架构。此外,在加载数据之前,通常必须按照预期用途对数据进行清理、整合和组
织。

由于数据仓库中的数据已经被处理,因此进行高级分析相对容易。业务经理和其他不
熟练的数据或分析专业人员可以使用自助BI工具(比如FineBl)自行访问和分析数
据。企业数据仓库为整个组织提供集中的数据存储库,同时可以为各个部门设置较小
的数据集市。与数据湖一样,云数据仓库越来越多地被部署为本地数据仓库的替代方
案。

3.数据湖与数据仓库:8个重要区别

当组织拥有来自操作系统的大量数据、需要随时进行分析以支持日常业务流程时,他们通常会选择数据仓库而不是数据湖。数据仓库通常作为企业中的可信单一数据源,因为它们存储已清理和分类的历史业务数据。

相比之下,数据湖通常存储来自更广泛来源的数据。数据湖平台本质上是来自组织的操作系统和其他来源(通常包括内部和外部来源)的各种原始数据资产的集合。下表详细介绍了数据湖和数据仓库之间的八个具体差异:

对比项数据湖数据仓库
支持的数据类型数据湖可以处理结构化、半结构化和非结构化数据的组合,这些数据通常以其本机格式存储,以使全套原始数据可用于分析。数据仓库通常存储来自业务处理系统和其他业务应用程序的结构化数据。在大多数情况下,数据在进入数据仓库之前会经过清理和整理。
分析用途数据湖主要用于涉及机器学习、预测建模和其他高级分析技术的数据科学应用程序。分析目标并不总是预定义的。数据仓库支持不太复杂的 BI、临时分析、报告和数据可视化应用程序,通常具有用于分析商业运营和跟踪 KPI 的预定义目的。
用户数据科学家和较低级别的数据分析师是数据湖的主要用户。他们通常得到数据工程师的支持,他们构建数据管道并帮助根据需要准备数据进行分析。业务分析师、高管和运营人员通过自助 BI 工具使用数据仓库。或者,BI 分析师和开发人员在数据仓库中为业务用户进行查询。
数据处理方法数据湖支持传统的提取、转换和加载(ETL) 流程,但它们更有可能使用提取、加载和转换(ELT),其中数据按原样加载并针对特定用途进行转换。ETL过程在数据仓库中的数据集成和准备很常见。在加载数据集以支持BI和分析应用程序之前,数据结构已最终确定。
架构方法数据集的架构可以在数据存储在数据湖中后使用读取时架构方法进行定义。数据仓库中的架构是在加载数据集之前按照写入时架构定义的。
数据存储数据通常存储在关系数据库以外的平台中,例如Hadoop分布式文件系统,云对象存储服务或非关系型数据库。最常见的是,数据使用传统的磁盘存储存储在关系数据库中。数据仓库也可以建立在列式储存数据库上,类似磁盘存储。
成本硬件成本可以降低,因为数据湖使用成本较低的服务器和存储。数据管理的成本也可能更低。但一些数据湖的庞大规模可以抹除成本优势。通常,数据仓库所需的大型服务器和磁盘存储系统使其部署成本高于数据湖。管理数据仓库的成本也可能更高。
商业利益数据湖使数据科学团队能够分析各种结构化和非结构化数据集,并创建分析模型,为战略规划和业务决策提供见解。数据仓库提供了一个集中的统一和精选数据集存储库,可以轻松访问并用于分析业务绩效和支持运营决策。

4.哪个平台更适合企业

决定用数据湖还是数据仓库主要取决于企业计划如何使用数据。

由于数据仓库包含已处理并准备用于分析的历史数据,因此非常适合技术知识较少的
员工。不仅业务分析师、高管和用户可以使用自助式B引和分析工具分析数据,而且
数据仓库的设计通常使不同的团队和部门可以轻松访问存储在其中的数据。这就是为
什么构建良好的数据仓库架构是打破企业系统数据孤岛的关键。

对于从大容量源源源不断地提取大量数据的企业来说,数据湖很受欢迎。数据湖可以
存储原始数据,数据提取相对简单。但是,与数据仓库中的已处理数据相比,此类数
据更难导航和使用。因此,数据科学家通常将数据湖用于高级分析应用程序。它们为
从相同的数据集构建不同的分析模型提供了灵活性,也使数据湖成为具有不同分析需
求的企业的热门选择。

最终,许多企业部署了这两种类型的平台来支持不同类型的数据分析。在某些情况
下,在统一环境中组合使用数据湖和数据仓库可能是最佳选择。例如,数据仓库中的
数据可能会被输入到数据湖中,以便数据科学家进行更深入的分析。更进一步,出现
了新的数据湖仓平台,它们将数据湖的灵活存储和可扩展性与数据仓库的数据管理和
用户友好查询功能相结合。

以上是关于数据仓库与数据湖的区别的主要内容,如果未能解决你的问题,请参考以下文章

“湖仓一体”:数据仓库与数据湖的左右互搏术

开源大数据:Databricks Lakehouse

奈学:数据湖和数据仓库的区别有哪些?

关于数据仓库的若干想法

数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析

最新大厂数据湖面试题,知识点总结