数据仓库—表分类同步策略基本结构

Posted 一个数据人的自留地

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库—表分类同步策略基本结构相关的知识,希望对你有一定的参考价值。

关注免费获取资料

1、可免费领取数据相关的面试题+面试攻略。

2、可免费领取<中台>相关的资料;

3、进交流群,认识更多的数据小伙伴。


表的分类


Q1

什么是实体表?

实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。

Q2

什么是纬度表?

维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。

比如地区表,订单状态,支付方式,审批状态,商品分类等等。

数据仓库—表分类、同步策略、基本结构

Q3

什么是事务型事实表?

事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。

一般比如,交易流水,操作日志,出库入库记录等等。

数据仓库—表分类、同步策略、基本结构

Q4

什么是周期型事实表?

周期型事实表,一般指随着业务发生不断产生的数据。

与事务型不同的是,数据会随着业务周期性的推进而变化。

 比如订单,其中订单状态会周期性变化。再比如,请假、贷款申请,随着批复状态在周期性变化。

数据仓库—表分类、同步策略、基本结构


同步策略


数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表

Ø  全量表:存储完整的数据。

Ø  增量表:存储新增加的数据。

Ø  新增及变化表:存储新增加的数据和变化的数据。

Ø  拉链表:对新增及变化表做定期合并。


① 实体表同步策略

实体表:比如用户,商品,商家,销售员等

实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。


② 维度表同步策略

维度表:比如订单状态,审批状态,商品分类

维度表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。

说明:

1)针对可能会有变化的状态数据可以存储每日全量。

2)没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只存一份固定值。


③ 事务型事实表同步策略

事务型事实表:比如,交易流水,操作日志,出库入库记录等。

因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。


④ 周期型事实表同步策略

周期型事实表:比如,订单、请假、贷款申请等

这类表从数据量的角度,存每日全量的话,数据量太大,冗余也太大。如果用每日增量的话无法反应数据变化。

 每日新增及变化量,包括了当日的新增和修改。一般来说这个表,足够计算大部分当日数据的。但是这种依然无法解决能够得到某一个历史时间点(时间切片)的切片数据。 

 所以要用利用每日新增和变化表,制作一张拉链表,以方便的取到某个时间切片的快照数据。所以我们需要得到每日新增及变化量。

数据仓库—表分类、同步策略、基本结构


雪花模型、星型模型、星座模型


在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。

数据仓库—表分类、同步策略、基本结构
数据仓库—表分类、同步策略、基本结构

一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。

扫码关注我,带你探索数据的神奇奥秘

以上是关于数据仓库—表分类同步策略基本结构的主要内容,如果未能解决你的问题,请参考以下文章

实时数据仓库介绍(Genie)

数据仓库数据同步策略

数据仓库设计要点

5分钟读懂数据仓库四种存储策略!

Greenplum 实时数据仓库实践——维度表技术

Greenplum 实时数据仓库实践——维度表技术