数据仓库数据湖与数据中台

Posted 大数据产品设计与运营

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库数据湖与数据中台相关的知识,希望对你有一定的参考价值。

 

一、数据仓库

 

1.1    数据仓库的定义

根据全球数据仓库之父 W.H.Inmon的定义,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)

 

1.2  数据仓库的特点

① 面向主题:指数据仓库内的信息是按主题进行组织的,而不是像业务系统那样按照功能组织。

②集成:指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

③数据是基于历史的:指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

 

1.3 数据仓库逻辑架构

 

数据仓库、数据湖与数据中台


 

1.4  数据仓库系统作用和定位

数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。

  • 是面向企业中、高级管理进行业务分析和绩效考核的数据整合、分析和展现的工具;

  • 是主要用于历史性、综合性和深层次数据分析

  • 数据来源是ERP(例:SAP)系统或其他业务系统;

  • 能够提供灵活、直观、简洁和易于操作的多维查询分析;

  • 不是日常交易操作系统,不能直接产生交易数据;

 

     数据仓库针对实时数据处理,非结构化数据处理能力较弱,以及在业务在预警预测方面应用相对有限。

 

 

二、数据湖

 

2.1  数据湖的定义

数据湖(DataLake)PentahoCTO James Dixon提出来的(Pentaho作为一家BI公司在理念上是挺先进的),是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。

数据仓库、数据湖与数据中台


 

2.2   数据湖的特点

  • 数据湖以自然格式存储数据
  • 数据不需要提前进行定义, 在准备使用数据时,再定义即可,提高了最高的灵活性与可扩展性。

 

2.3  数据湖的处理架构


目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

 

数据仓库、数据湖与数据中台


 

2.4  数据仓库与数据湖差异

 

   在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。

   在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。

   数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。

       在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。

 


数据仓库

数据湖

处理的数据

类型

主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。

能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。

目的与作用

处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。

拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。

数据访问特点

数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。