浅谈数据仓库两种方法论
Posted 林恩5678
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈数据仓库两种方法论相关的知识,希望对你有一定的参考价值。
Kimball和Inmon是两种主流的数据仓库方法论,提出这两种方法的分别是 Ralph Kimbal 和 Bill Inmon,二者都是数据仓库方面的知名学者。
01
Kimball
Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。对于Kimball模式,数据源往往是给定的若干个数据库表,数据较为稳定但是数据之间的关联关系比较复杂,需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构,再放入数据集市中方便下一步的BI与决策支持。
通常,Kimball都是以最终任务为导向。
Kimmball的四步骤维度设计过程:
1.选择业务处理过程
2.声明粒度
3.确定维度
4.确定事实
Kimball往往意味着快速交付、敏捷迭代,不会对数据仓库架构做过多复杂的设计,在变换莫测的互联网行业,这种架构方式逐渐成为一种主流范式。
02
Inmon
Inmon 模式从流程上看是自顶向下的,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。对于Inmon模式,数据源往往是异构的,比如从自行定义的爬虫数据就是较为典型的一种,数据源是根据最终目标自行定制的。
在Inmon模式中,并不强调事实表和维度表的概念,因为数据源变化的可能性较大,需要更加强调数据的清洗工作,从中抽取实体-关系。
通常,Inmon都是以数据源头为导向。首先,需要探索性地去获取尽量符合预期的数据,尝试将数据按照预期划分为不同的表需求。其次,明确数据的清洗规则后将各个任务通过ETL由Stage层转化到DW层,这里DW层通常涉及到较多的UDF开发,将数据抽象为实体-关系模型。接着,在完成DW的数据治理之后,可以将数据输出到数据集市中做基本的数据组合。最后,将数据集市中的数据输出到BI系统中去辅助具体业务。
03
二者对比
特性 | Kimball | Inmon |
---|---|---|
数据摄取 | Y | Y |
stage | Y | Y |
ETL | Y | Y |
数据集市 | Y | Y |
商业需求 | Y | Y |
数据时间属性 | Y | Y |
数据仓库优先 | N | Y |
事实维度拆分 | Y | N |
关系表维护 | N | Y |
处理导向 | Y | N |
数据模型泛化 | N | Y |
精心设计 | N | Y |
缓慢变化维 | Y | N |
连续变化维 | N | Y |
特性 | Kimball | Inmon |
---|---|---|
时间 | 快速交付 | 漫长 |
开发难度 | 小 | 大 |
维护难度 | 大 | 小 |
数据要求 | 特定业务 | 企业级 |
04
总结
企业的数据仓库是为了出具分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
通过对两种数据仓库方法论的简介和对比,可以看出二者的优点和缺点,在实际项目中,往往会同时借鉴两种数据仓库的思想,并结合实际业务来构建企业的数据仓库。
本文章仅代表作者个人看法。
欢迎长按以下二维码关注
以上是关于浅谈数据仓库两种方法论的主要内容,如果未能解决你的问题,请参考以下文章