分析工具9-企业的数据仓库和数据集市-企业数据架构的演进

Posted 展博解数

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分析工具9-企业的数据仓库和数据集市-企业数据架构的演进相关的知识,希望对你有一定的参考价值。

企业数据架构随着IT的发展不断演化,从单一应用对应的应用数据库(通常mysql mssql oracle sybase等关系型数据库承载),随着企业应用和数据的增多各个系统之间为了统一语言形成了主数据系统,数据进一步膨胀产生了企业级基于主题域的数据仓库以及部门级面向数据分析的数据集市。


本文参考kmpg 《洞见数据价值 from data to insights》

简单介绍下数据仓库、数据集市、数据工厂的区别


  • 数据仓库

企业级,面向主题,搜集企业各个应用系统、外部关键时间,通过etl、ods层的加工形成面向主题的数据域,数据承载容量大,可以满足历史数据的存储、归档、快速访问


>>“数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目的是便于将数据的报告和分析汇总到多个层次。”或者更简单点:

  “一个存放企业各个领域的数据的单独且有组织的库。”

典型的数据仓库有以下的一些特点:

  ~~涉及多个主题域

  ~~有十分详细的信息

  ~~集合来自不同数据源的数据

  ~~不一定使用维模型,但提供维模型


  • 数据集市

部门级,通常结合BI工具,通过cube、宽表的方式面向业务进行数据的组织,目的在于更好的支持业务的决策


>>数据集市(Data Mart)是数据仓库的一个访问层,用于从数据仓库抽取相关的数据给用户,数据集市是数据仓库的一个子集,通常面向特定的业务线或者团队(财政部门有他们自己的数据集市,市场部门有他们自己的数据集市,销售部门有他们自己的数据集市等等)。

根据Inmon学院对数据仓库的定义,一个独立的数据集市是更大的数据仓库的一个逻辑子集或物理子集,通常是相互独立的,因为数据模式和模型彼此之间不相同。微软提出的Tabular模型则使得你可以直接从数据仓库抽取数据而无需从数据集市抽取数据


>> 数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的):

(1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。

(2) 支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。)

(3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。

(4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。

(5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)


  • 数据工厂

数据加工的概念,通常企业内数据的etl以任务的方式组织,所有的任务像流水线一样处理数据,形似工厂



以上是关于分析工具9-企业的数据仓库和数据集市-企业数据架构的演进的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库与数据集市的概念区别

数据集市

独家 | 一文盘点数据集市和数据仓库的差异(附链接)

数据仓库和数据集市的区别

数据仓库数据集市数据湖和Data Vault是什么?

数据仓库vs.数据湖vs.数据集市:超越RDBMS