数据仓库:Kimball的数据仓库架构理论

Posted Tunky的实用主义

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库:Kimball的数据仓库架构理论相关的知识,希望对你有一定的参考价值。

按照Kimball的数仓理论,建议分为四个层次: 源事务层,ETL层,展现层,智能应用层。下面依然用厨房的例子来类比各层的作用:


源事务层:食材

应用系统层,可以认为这是处于数据仓库之外,一般是一次处理一条数据的操作型业务系统。


数据获取/转换/加载层(ETL):厨房

  • 获取:食材获取

数据获取过程中要鉴别数据质量的好坏,进行准入的判断。例如数据残缺,重复,重要字段空值,编码不符合规范等

  • 转换:食材的清洗,切丝/切片统一规格,方便后续加工。

清洗  清洗的工作一般包括消除拼写的错误,统一编码值域范围,统一格式例如时间日期,剔除非法字符等

集成  解决领域的冲突(针对同一业务的不同描述),合并不同数据源的数据。

  • 加载:炒菜过程

在定义了主题域模型后,以维度建模中事实表和维度表的方式,把数据加工到主题域模型中,并最终发布成业务分析员易于使用的数据。发布前要进行数据质量的校验,确保给用户使用的数据质量是可靠的。


数据展现层:用餐区

业务分析人员使用已发布的数据,解决业务问题的区域。因此有几个条件最好满足:

界面要友好,尽量避免需要业务人员写代码,敲命令

数据展示符合对方的思维习惯,上手就要能用起来

需要有原子数据,满足无法预期的,随意的查询

对于用户的使用行为要进行监控,及时发现问题,如果使用频率下降,则说明一定存在问题需要改进。


智能应用层:留住回头客,吸引新客户

用于数据挖掘,机器学习,预测等操作的区域。一般是少数人使用。



数据集市和数据仓库:

数据集市是基于小范围的部门需求,而进行数据采集,加工,转换形成的满足特定目标(财务,风险,司库等)的数据,并进行优化。这些数据一般无法满足其他部门的使用需求。

数据集市最好是在数据仓库的基础上建立起来,否则等到有多于一个部门需要建立数据集市的时候,重复投入就非常大。



以上是关于数据仓库:Kimball的数据仓库架构理论的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库Inmon和Kimball架构

数据仓库中的Inmon与Kimball架构

数据仓库中的Inmon与Kimball架构之争

搭建数据仓库第05篇:逻辑建模–2–范式建模

什么是数据仓库总线架构

数仓实践:浅谈 Kimball 维度建模