杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标

Posted 卖山楂啦prss

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标相关的知识,希望对你有一定的参考价值。

一些杂记

宽表与窄表

宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。

由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。

参考:https://zhuanlan.zhihu.com/p/140420911

窄表:严格按照数据库设计三范式。尽量减少数据冗余,但是缺点是修改一个数据可能需要修改多张表


事实表/维度表

事实表:表格里存储了能体现实际数据或详细数值,一般由维度编码和事实数据组成。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程进行设计。

详见:https://help.aliyun.com/document_detail/126689.html?spm=a2c4g.11186623.6.589.6f7940c3pSkbLC

维度表:表格里存放了具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成

详见:https://help.aliyun.com/document_detail/137615.html?spm=a2c4g.11186623.6.588.2ac1307bA6pgEN


魔百和

魔百和基于家庭宽带网络,通过“魔百和”定制终端,以电视机为显示设备,向用户提供可点播的电视内容及应用, 同时提供多屏互动体验,着力打造“和视界”为多屏首发高清院线。

在这里插入图片描述


数据分层

ODS——操作性数据,数据与原业务数据保持一致,可以增加字段用来进行数据管理

DW——数据仓库

DM——数据集市

1.数据中心整体架构

在这里插入图片描述
来自:https://blog.csdn.net/Wondr8652099/article/details/105989367/

在这里插入图片描述
数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。


1)ETL(抽取、转换、加载)完成数据的接入

2)ODS 保存原始数据,完成数据的积存功能。(临时存储层)

ODS存放从业务系统获取的最原始的数据,这些数据未经处理,是其他上层数据的源数据。业务数据系统中的数据通常为长期累积的、非常细节的数据,且访问频率很高,是面向应用的数据。


在逻辑层面上,这些数据都是以二维表的形式存储。严格地说,虽然ODS层不属于数仓建模的范畴,但是合理地规划ODS层并做好数据同步也非常重要。
https://help.aliyun.com/document_detail/126973.html?spm=a2c4g.11186623.6.587.75d34a3dm3bYFg

3)DW :DWS DWD 为数据分析提供服务(数据仓库层)

4)ADS 保存结果数据(应用层)
在这里插入图片描述


补充:

在这里插入图片描述


补充:

来源:https://blog.csdn.net/xfg0218/article/details/85092196

在这里插入图片描述


补充:来源 https://help.aliyun.com/document_detail/126215.html?spm=a2c4g.11186623.6.586.50e72a40dOx2bM
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

补充2:


表命名要求

层级+业务说明+表后缀+时间周期(日/月/年)

表后缀:

DS 当日(不累加,按日计算出来的数据)
DT 当日(从1号累加到当日)
MM 当月(按月计算的数据)
DM,当月(按日计算出来的数据)
DW_BILL_ITEM_DT_${yyyyMMdd}

录入表名,若表的后面是动态日期的时候,日期部分需要用${}括起来

时间周期:

yyyy——表示按年分表(分区);
yyyyMM——表示按月分表
yyyyMMDD——表示按日分表

接口表ODS

ODS

维度表DIM

DIM

明细表 DW明细级数据

表后缀:

DS 当日(不累加,就当日计算出来的数据)
DT 当日(累加,从当月1号累加到当日的数据、也或者从当年1日累加到当日数据、按当日计算的全量数据)
MM 当月(按月计算的数据)
DM,当月(按日计算出来的数据)
DW_BILL_ITEM_DT_${yyyyMMdd}

录入表名,若表的后面是动态日期的时候,日期部分需要用${}括起来

汇总表 ST统计级数据 / 汇总级)

DWS

临时表 temp


表中常见的i、s、a等也是代表了增量表、快照表、全量表
全量表就是存储了全部数据的表,没有分区之分,可以理解为总共就一个分区。全量表中存储了截至目前为止最新状态的全部记录,这就表示可能存在历史状态的更新。

因此全量表就是保留了全部数据的表,但历史可能状态会更新。

增量表:记录每天的新增数据,增量数据是上次导出之后的新数据。
快照表:按日分区,记录截止数据日期的全量数据
切片表:切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据


MPP

MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。


在这里插入图片描述


电信行业DOU(平均每户每月上网流量)

在这里插入图片描述

电信行业MOU(平均每户每月通话时间)

MOU:minutes of usage,每用户每月平均通话时间),可以统计至每年或者每月

电信行业ARPU(每用户每月平均收入)

Average Revenue Per User,指的是一个时期内(通常为一个月或一年)电信运营企业平均每个用户贡献的通信业务收入,其单位为元/户,衡量电信运营商业务收入的指标,也是衡量用户价值的重要指标。

ARPU注重的是一个时间段内运营商从每个用户所得到的收入。

电信行业ARPM(每分钟通话平均收入)

ARPM:Average Revenue Per Minute

以上是关于杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标的主要内容,如果未能解决你的问题,请参考以下文章

数仓建模—宽表的设计

数据仓库分层架构

[hive]数仓分层|用户纬度拉链表|维度建模

大数据(0b)离线数据仓库

离线数仓

SQL:将宽表转换为窄表