数据仓库篇数据中台建设规范
Posted 大数据漫路求索
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库篇数据中台建设规范相关的知识,希望对你有一定的参考价值。
一、文章概述
数据数据建设的生命周期中,有必要做出一套关于建表、字段、总线矩阵的规范。数据表和和字段的总原则是采用英文缩写加下划线的方式来命名。
二、中台表命名规范
2.1 数据主题域
数据主题域主要是为了方便我们主题的划分,同时有必要对主题进行统一维护、命名、编码等。
在数据主题域中定义业务过程,需要系统化维护,保证同一业务范围的业务过程在数据中台中只创建一次。
数据域 |
缩写 |
业务过程 |
2.2 数据表类型
表类型 |
中文名 |
英文名 |
英文缩写 |
事实表 |
事务性事实表 |
transaction |
trans |
事实表 |
周期快照事实表 |
periodic |
perid |
事实表 |
累计快照事实表 |
accumulating |
accum |
维度表 |
审计类型维度表 |
audit |
audit |
维度表 |
分析类维度表 |
analyse |
anly |
2.3 应用说明
采用简单的英文单词简写描述表的用途
2.4 更新频率
MM/H/D/W/M 【分钟/小时/天/周/月】
2.5 更新方式
I/A 【增量/全量】
2.6 事实表命名规范
1 数据明细层(DWD)事实表命名规范
dwd_{主题域}_{应用说明}_[事实表类型_]_{更新频率+更新方式}
2 一致性数据汇总层(DWS)事实表命名规范
dws_{主题域}_{应用名称}_[事实表类型_]_{更新频率+更新方式}
3 个性化数据汇总层(AWS)事实表命名规范
ads_{主题域}_{应用名称}_{业务方}_[事实表类型_]_{更新频率+更新方式}
2.7 维度表命名规范
1 公共一致性维度表
dim_pub_{维度定义}_{维度层级数}_{更新频率+更新方式}
2 应用型维度表
dim_{业务方编码}_{维度定义}_{维度层级数}_{更新频率+更新方式}
3 审计维度表
dim_{audit}_{维度定义}_{维度层级数}_{更新频率+更新方式}
2.8 字段命名规范
字段前缀(1) |
行为名称 |
行为英文名称(2) |
英文缩写(3) |
样例 |
修饰语_ |
维度键 |
dimension key |
key |
样例:(1)_(2)_key,必须保证key后缀 |
系统统一编码识别符 |
system |
sys |
(1)_(2)_sys |
|
业务修饰语_统计对象_ |
数量 |
count |
cnt |
(1)_(2)_cnt |
次数 |
times |
times |
||
金额 |
amount |
amt |
||
PV |
page view |
pv |
||
UV |
unique visitor |
uv |
||
业务修饰语_ |
成功 |
success |
succ |
|
完成 |
finish |
finish |
||
支付 |
pay |
pay |
||
address |
addr |
|||
订单 |
order |
ord |
||
渠道 |
channel |
chl |
||
日期 |
date |
date |
||
时间 |
time |
time |
||
系统自动编码 |
identify |
id |
||
操作流水号 |
number |
no |
||
业务编码 |
code |
code |
||
名称 |
name |
name |
||
数据仓库总线矩阵规范
维度总线矩阵
维度建模的数据总线矩阵,提炼出公共一致性维度。无论是主事实表,还是隶属于主事实表的子事实表都统一在总线矩阵中体现出来,这样我们能够准确提炼真正的公共一致性维度。
业务过程 |
原子粒度 |
度量 |
公共维度 |
|||||
日期 |
房源 |
地域 |
店面 |
经纪人 |
其他维度 |
|||
提交支付订单 |
每个购买订单一行 |
每个购买订单数量和价格 |
√ |
√ |
√ |
√ |
√ |
|
商品库存 |
清单每项一行 |
每个库存的数量 |
√ |
√ |
√ |
|||
店面库存 |
清单每项一行 |
每个店面房屋的数量 |
√ |
√ |
√ |
√ |
||
… |
||||||||
… |
||||||||
业务过程 |
机会/利益型矩阵
可以利用同一个业务过程勾画出不同的矩阵,但需要用维度列替换业务功能。例如,销售计划、市场、店面操作以及金融等。按照不同的功能的需要,包含不同的矩阵元素表明哪些业务过程对哪些业务功能有需求。在以过程为中心的行被确定为项目时,也可以用于识别需要哪些组参与更详细的需求、维度建模和BI的应用需求。
业务过程 |
利益相关方 |
|||||
销售计划 |
市场 |
店面操作 |
后期保障 |
财务 |
其他维度 |
|
提交支付订单 |
√ |
√ |
√ |
√ |
√ |
|
商品库存 |
√ |
√ |
√ |
|||
店面库存 |
√ |
√ |
√ |
√ |
||
… |
||||||
… |
||||||
业务过程 |
维度事实表样例
创建事实表和维度表要遵循一定的规范,维度表通常是一个大宽表,包括尽可能多的维度描述信息,维度表和事实表的key值,都需要添加_key的后缀,这样方便查找维度信息。事实表和微博表都需要描述清楚自己的来源信息。具体可以参考下面的样例。
需求优先级
不可能一次迭代就能完成所有需求,因此有必要和团队的负责人、业务方协商优先级。可以考虑按照“潜在的业务价值”和“需求可行性”两个方面综合考虑优先级。
以上是关于数据仓库篇数据中台建设规范的主要内容,如果未能解决你的问题,请参考以下文章
数据中台应用实战50篇-带你概览BI数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)