大数据学习(三十一)数据仓库如何处理缓慢变化维

Posted 阿齐(努力打工版)

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据学习(三十一)数据仓库如何处理缓慢变化维相关的知识,希望对你有一定的参考价值。

以下内容结合了《大数据之路-阿里巴巴大数据实践》书中的内容,就如何处理缓慢变化维话题进行展开。

前言:维度的属性也是会发生变化的,只不过相较于事实表而言,变化的速度是极其缓慢的,那我们是否有必要去关注维度的历史数据呢?其实也是依照真实的业务产环境而定。(就比如业务员月中从A部门转到了B部门,到了月末需要统计A、B部门的业绩,那就需要关注维度的历史数据了)

书中结合了kimball的理论,提出了三种解决办法。

1.重写维度值。不保留历史数据,始终取最新的数据。

2.插入新的维度行。采用此种方式,保留历史数据,纬度值变化前的事实与过去的纬度值关联,纬度值变化后的事实与当前的纬度值关联。           

3.添加维度列。新增一列,保留历史数据。

总结:使用哪一个方法,还是要视具体业务场景而定。                                                                  

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              

以上是关于大数据学习(三十一)数据仓库如何处理缓慢变化维的主要内容,如果未能解决你的问题,请参考以下文章

SCD缓慢变化维拉链表

如何处理数据仓库中的图关系?

如何处理数据仓库设计中同样增长的事实/维度表?

如何处理数据仓库中用户可以更改的代码表属性

Pandas中如何处理大数据?

如何处理数据仓库中重复id包含略有不同值的维度表?