秒懂数据仓库与数据中心数据治理主数据的关系

Posted 摩兔起航

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了秒懂数据仓库与数据中心数据治理主数据的关系相关的知识,希望对你有一定的参考价值。

    最近发现很多人针对数据仓库、数据治理、数据中心、主数据几个概念模糊不清,数据仓库做银行和企业方面的人应该比较懂,但是最近和许多银行讨论数据治理的时候,他们针对数据治理的概念也比较模糊,今天先给大家分享一下几个大概念层面的区别。

    数据仓库的基本知识数据仓库英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

    数据仓库的分层架构:数据仓库的分层可以算是数据仓库架构的的分支话题,其实截止到目前数据仓库分层都没有完全明确下来,因为在实际运用中,有很多种不一样场景,按照中规中矩的方式去实现,每一层的作用未必是最好的;数据从分散而异构的数据源中长途跋涉,到最终的报表、仪表盘、OLAP应用等等,让用户看到一致的结果,这是一个处理过程。数据的加工如同厂里面生产加工产品一样,从开始的原材料(原材料类似我们的业务系统),通过各种环节加工和质量检核(这个过程就是需要用ETL和数据质量软件完成数据规范),最后形成一个个规范的数据,放入到不同的店面进行销售(店面就类似与我们的数据集市)。即便是这样一个大的理解,目前行业里面有几种声音针对不同数据仓库分层,每层作用也就不一样,Inmon和Kimball是最具代表性的两种分层模式。

    Inmon提出的CIF(Corporate Information Factory,企业信息工厂),是将ODS(Operational Data Store,操作型存储)、EDW(Enterprise Data Warehouse,企业数据仓库)、DM(DataMart,数据集市)进行区分,总共分为三层。

    Kimball的总线架构强调多个数据集市合成了数据仓库,只是他们基于统一的维度而已。因此,总线架构的分层中,从数据源接口就直接到DM。

    IBM依据这两种思路之上提出一种CDW(企业数据仓库层)的概念,这一层介于EDW和DM之间,起过渡作用(因为EDW和DM两层的建模理念是不同的)。除了上面一些分层,

还认同一个Staging Area(集结地)的地方。这个主要作用拿来ETL过程中数据的临时存储,可究竟这个区域是位于接口到ODS之间,还是ODS到DW之间,或是CDW到DM之间,其实是没有达成一致的意见。

    ODS是短期的实时的数据,供产品或者运营人员日常使用,而数据仓库是供战略决策使用的数据;ODS是可以更新的数据,数据仓库是基本不更新的反应历史变化的数据。ODS作为数据库到数据仓库的一种过渡形式,与数据仓库在物理结构上不同,能提供高性能的响应时间,ODS设计采用混合设计方式。ODS中的数据是"实时值",而数据仓库的数据却是"历史值",一般ODS中储存的数据不超过一个月,而数据仓库为10年或更多。在大数据里面,ODS可以采用(HBase+ES)进行搭建,DW可以通过Hive进行构建。如何能搭建一个数据架构体系,既能支持战略决策使用的数据仓库数据,又能兼容业务快速的变化和运营产品人员日常需求的ODS数据呢?

该数据架构属于一个混合数据架构,所有数据通过ETL到DW中,如果需要快速获取实时和更新的数据,即可通过这种方式在写入DW的同时也同时写入ODS中。针对ODS写入的数据值可以再次写入DW中,核对双方数据是否一致。数据集市的应用就即可以通过ODS获取想要的,也可以通过DW进行获取。

数据仓库与数据中心的区别?

前面已经介绍数据仓库是什么,那么数据中心是什么呢?如果是针对具体的企业或者单位来定义的话,其实就是业务系统数据存储技术和数据仓库的组合,有的企业只有数据仓库,没有业务需求,只有分析需求,比如政府。但如果是互联网公司,就和普通企业和单位的数据中心不同,因为互联网的信息实在庞大,不可能包罗所有信息到数据库,也处理不了那么多信息,所以他们的数据中心的其中作用就是加强互联网数据的处理速度和效果;另一个作用也是数据仓库,但他们的数据仓库就不会包含所有互联网信息,而是企业本身关心的信息,当然数据量也非常大,一般100TB以上。数据中心的概念远远大于数据仓库范畴,包括了机房、网络、硬件设备、分布式软件技术、数据资源标准体系如何定义等方面。数据仓库目前更多是管理针对当前有业务和分析需要的处理数据。

数据仓库与数据治理的区别?

    数据仓库在企业已经存在很多年了,数据治理是最近几年兴起的新概念,数据治理针对数据进行一整套的数据规划、整合、控制等进行起来的一套体系。是站在数据中心之上定义数据标准、质量标准、安全标准、服务标准、开放标准等,依托元数据按照不同用途进行技术元数据和业务元数据的管理。金融领域使用数据仓库架构已经存在十几年的历史上,但是数据仓库的建设往往是按当时的需求进行建设,针对数据资源没有统一规划,数据质量和数据指标体系非常不好。往往出现指标不可信,随着需求不断的累积,传统的数据仓库架构也无法支撑日积月累的数据,所以拥有数据仓库的企业急需通过大数据相关技术+数据治理体系来提升现有的数据仓库,我们统称为大数据时代的数据仓库架构,即大数据治理。

    针对数据治理,在政府领域和企业领域是不一样的,政府本身是没有数据的,数据是来自各个部门,他们在进行数据层面的时候和企业数据仓库架构存在一定区别。政府数架构分层主要分为:数据汇集层、数据规范层、数据融合层(包含ODS、DW)、数据应用层(主要为DM)。企业数据架构分层主要为:数据操作层(ODS)、数据仓库(DW)、数据集市(DM)。

    政府在做数据治理的时候往往是通过数据交换平台获取过来的数据,为了在做数据治理过程中存储原有数据形态,一般会针对采集过来的数据原封不动的形成一个汇集库,主要目的避免不必要的扯皮和沟通。针对汇集层的数据通过数据质量软件和ETL完成数据处理形成数据规范层。这两个层在企业里面不会进行落地,而是通过ETL和数据质量管理软件直接处理完形成数据仓库或者到ODS层,也就是数据治理的数据融合层。因为企业里面数据都是自身的,沟通层面相对于比政府更容易,这样也可以减少存储资源和计算资源的投入。企业里面的数据操作层和数据仓库这两个东西,在新的体系容易在数据融合层,依据业务场景的不同存储在不同的数据存储技术层面。数据应用层和企业里面的数据集市一致。

数据仓库与主数据的关系?

    主数据管理系统和数据仓库系统异同共存,但是二者却有着紧密的联系,并且可以互为促进、互为补充。举例而言,数据仓库系统的分析结果可以作为衍生数据输入到 MDM 系统,从而使 MDM 系统能够更好地为操作型 CRM 系统服务。

它们的共同之处主要如下:

    1、都具有相同的价值,可以减少数据冗余和不一致性、提升对数据的洞察力,都是跨部门的集中式系统;

    2、采用相同的技术手段,都会涉及到 ETL 技术、都需要元数据管理、都强调数据质量;

    3、建设模式一致,都需要数据治理的规范作为指导、都需要不同系统、不同部门的协作、需要统一的安全策略。

那么主数据管理系统和数据仓库区别呢?

    1、处理类型不同:主数据管理 (MDM) 系统是偏交易型的系统,它为各个业务系统提供联机交易服务,系统的服务对象是呼叫中心、B2C、CRM 等业务系统;而数据仓库是属于分析型的系统,面向的是分析型的应用,是在大量历史交易数据的基础上进行多维分析,系统的使用对象是各层领导和业务分析、市场销售预测人员等;

    2、实时性不同:与传统的数据仓库方案的批量 ETL 方式不同,主数据管理系统在数据初始加载阶段要使用 ETL,但在后续运行中要大量依赖实时整合的方式来进行主数据的集成和同步;

    3、数据量不同:数据仓库存储的是大量的历史数据和各个维度的汇总数据,可能会是海量的,而 MDM 存储的仅仅是客户和产品等信息。

 








以上是关于秒懂数据仓库与数据中心数据治理主数据的关系的主要内容,如果未能解决你的问题,请参考以下文章

讨论帖:主数据管理和数据仓库等在实际使用中的区别

数据仓库(11)什么是大数据治理,数据治理的范围是哪些

数据治理类型

数据仓库与数据库的主要区别有

大数据治理及数据仓库模型设计

数据仓库与数据挖掘的关系,区别与联系