005:数据湖与数据仓库的区别
Posted YoungerChina
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了005:数据湖与数据仓库的区别相关的知识,希望对你有一定的参考价值。
根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。
随着使用数据仓库的组织看到数据湖的优势,他们正在改进其仓库以包括数据湖,并启用各种查询功能、数据科学使用案例和用于发现新信息模型的高级功能。Gartner 将此演变称为“分析型数据管理解决方案”或“DMSA”。
通过上表,我们不难发现“数据湖”有着数据仓库无法比拟的优势:
首先,在数据处理和存储能力方面,数据湖可以处理结构化、半结构化、非结构化的所有数据结构的数据,而数据仓库只能处理结构化数据。
数据仓库在处理数据之前要先进行数据梳理、定义数据结构、进行数据清洗才进行入库操作,而数据湖是不管“三七二十一”连上数据源就能将原始数据“一锅端过来”,这就为后续数据湖的机器学习、数据挖掘带来了无限可能!
其次,在数据质量和安全方面,数据仓库作用范围有限,它只能用于收集、处理和分析特定业务问题所必需的数据,而数据湖却能对任何数据,甚至无法监管的原始数据实施数据治理,以提升数据质量和安全性。
最后,在灵活性上数据湖具备天然优势。传统的数仓,因为模型范式的要求,业务不能随便的变迁,这涉及到底层数据的各种变化,这导致了传统数仓无法支持业务的变化。对于数据湖来说,即使像互联网行业不断有新的应用,业务不断发生变化,数据模型也不断的变化,但数据依然可以非常容易的进入数据湖,对于数据的采集、清洗、规范化的处理,完全可以延迟到业务需求的时候再来处理。这跟早期的数仓思维就很不一样,数据湖相对于企业来说,灵活性比较强,能更快速的适应前端应用的变化。
以上是关于005:数据湖与数据仓库的区别的主要内容,如果未能解决你的问题,请参考以下文章
数据中台应用实战50篇-带你概览BI数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)
数据中台应用实战50篇-带你概览BI数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)