浅谈数据仓库两种方法论

Posted 林恩5678

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈数据仓库两种方法论相关的知识,希望对你有一定的参考价值。

Kimball和Inmon是两种主流的数据仓库方法论,提出这两种方法的分别是 Ralph Kimbal 和 Bill Inmon,二者都是数据仓库方面的知名学者。


01

Kimball


Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。对于Kimball模式,数据源往往是给定的若干个数据库表,数据较为稳定但是数据之间的关联关系比较复杂,需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构,再放入数据集市中方便下一步的BI与决策支持。

通常,Kimball都是以最终任务为导向。

Kimmball的四步骤维度设计过程:

    1.选择业务处理过程

    2.声明粒度

    3.确定维度

    4.确定事实

Kimball往往意味着快速交付、敏捷迭代,不会对数据仓库架构做过多复杂的设计,在变换莫测的互联网行业,这种架构方式逐渐成为一种主流范式。


02

Inmon


Inmon 模式从流程上看是自顶向下的,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。对于Inmon模式,数据源往往是异构的,比如从自行定义的爬虫数据就是较为典型的一种,数据源是根据最终目标自行定制的。

在Inmon模式中,并不强调事实表和维度表的概念,因为数据源变化的可能性较大,需要更加强调数据的清洗工作,从中抽取实体-关系。

通常,Inmon都是以数据源头为导向。首先,需要探索性地去获取尽量符合预期的数据,尝试将数据按照预期划分为不同的表需求。其次,明确数据的清洗规则后将各个任务通过ETL由Stage层转化到DW层,这里DW层通常涉及到较多的UDF开发,将数据抽象为实体-关系模型。接着,在完成DW的数据治理之后,可以将数据输出到数据集市中做基本的数据组合。最后,将数据集市中的数据输出到BI系统中去辅助具体业务。





03

二者对比


特性 Kimball Inmon
数据摄取 Y Y
stage Y Y
ETL Y Y
数据集市 Y Y
商业需求 Y Y
数据时间属性 Y Y
数据仓库优先 N Y
事实维度拆分 Y N
关系表维护 N Y
处理导向 Y N
数据模型泛化 N Y
精心设计 N Y
缓慢变化维 Y N
连续变化维 N Y


特性 Kimball Inmon
时间 快速交付 漫长
开发难度
维护难度
数据要求 特定业务 企业级



04

总结


企业的数据仓库是为了出具分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

通过对两种数据仓库方法论的简介和对比,可以看出二者的优点和缺点,在实际项目中,往往会同时借鉴两种数据仓库的思想,并结合实际业务来构建企业的数据仓库。



  本文章仅代表作者个人看法。


欢迎长按以下二维码关注



以上是关于浅谈数据仓库两种方法论的主要内容,如果未能解决你的问题,请参考以下文章

DW数据建模 | 浅谈数据仓库建设中的数据建模方法

#48 浅谈数据仓库(DW & BI)

#45 浅谈数据仓库(DW & BI)

“浅谈”数据仓库

浅谈数据仓库的基本架构(转)

动态数据仓库设计与应用浅谈