数据仓库建模-维度建模
Posted Data视界
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库建模-维度建模相关的知识,希望对你有一定的参考价值。
三种事实表模型
事务事实模型:了解发生的事务,代表了当时时间点上出现的一个事件,只有当事件出现以后才会有对应的一行。
周期快照模型:了解一段时间内的状况,主要是了解有规律、可预见时间间隔的业务累积性能方面。
累积快照模型 : 了解一个事务完成一个周期所话费的时间(有多个时间段),代表完全涵盖一个事务或者离散产品的生命周期不确定时间跨度。
分类 |
事务粒度 |
周期快照粒度 |
累积快照粒度 |
代表的时间段 |
时间点 |
规律性可遇见间隔 |
不确定时间跨度、一般是短期 |
粒度 |
每个事务事件一行 |
每段一行 |
每个生命周期一行 |
事实表加载 |
插入 |
插入 |
插入和更新 |
事实行更新 |
不重新存取 |
不重新存取 |
行为发生的时候都要重新存取 |
日期维度 |
事务日期 |
时间段终止日期 |
标准关键环节的多个日期 |
事实 |
事务活动 |
预定时间间隔的性能 |
给定生命周期的性能 |
业务分析
在介绍业务分析之前,我们先介绍一下值链。值链是指一个业务具体操作,值链确定了机构主体活动的自然逻辑流程,操作型系统通常在值链的每个步骤创建事务或者快照,同时顺着该路径生成令人感兴趣的性能指标。分析决策支持系统的的首要目标是监控关键业务处理过程的性能结果,值链可以提供深入到整个企业数据仓库的高水平的内幕信息。
如图:一个零售商货物的基本流程走向,在每一个节点我们都可以建议一个分析模型和对应的分析指标。
维度、粒度
维度的粒度,应最优先考虑为业务处理获取最有原子性的信息而开发维度模型,原子数据是所收集的最详细的信息,这样的数据不能在做更进一步的细分,这样处理的好处是可以以很精确的方式对细节知识进行查询。良好的维度粒度定义对事实表的修改具有先天的预见作用,过早的汇总或者聚集处理会不利于维度的扩展,比如限制对维度的增补,因为增加的维度的粒度会引起冲突。
维度表应该在物理上保持平面的特点,规划化和雪花型维度表制约了属性的浏览操作,并禁止对位图索引的使用,规范化的维度节省的空间一般少于整个设计结构的所需磁盘的1%,有时候必要的雪花维度处理是必要的,在处理雪花维度时要持谨慎态度。维度表的建立,同一个体系之内元素不应该过度分开,事实表中维度应该少于10个,过多的维度的时候应该要考虑这个事实表的设计时候正确。
以上是关于数据仓库建模-维度建模的主要内容,如果未能解决你的问题,请参考以下文章