杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标
Posted 卖山楂啦prss
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标相关的知识,希望对你有一定的参考价值。
一些杂记
宽表与窄表
宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。
由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。
参考:https://zhuanlan.zhihu.com/p/140420911
窄表:严格按照数据库设计三范式。尽量减少数据冗余,但是缺点是修改一个数据可能需要修改多张表
事实表/维度表
事实表:表格里存储了能体现实际数据或详细数值,一般由维度编码和事实数据组成。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程进行设计。
详见:https://help.aliyun.com/document_detail/126689.html?spm=a2c4g.11186623.6.589.6f7940c3pSkbLC
维度表:表格里存放了具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成
详见:https://help.aliyun.com/document_detail/137615.html?spm=a2c4g.11186623.6.588.2ac1307bA6pgEN
魔百和
魔百和基于家庭宽带网络,通过“魔百和”定制终端,以电视机为显示设备,向用户提供可点播的电视内容及应用, 同时提供多屏互动体验,着力打造“和视界”为多屏首发高清院线。
数据分层
ODS——操作性数据,数据与原业务数据保持一致,可以增加字段用来进行数据管理
DW——数据仓库
DM——数据集市
1.数据中心整体架构
来自:https://blog.csdn.net/Wondr8652099/article/details/105989367/
数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。
1)ETL(抽取、转换、加载)完成数据的接入
2)ODS 保存原始数据,完成数据的积存功能。(临时存储层)
ODS存放从业务系统获取的最原始的数据,这些数据未经处理,是其他上层数据的源数据。业务数据系统中的数据通常为长期累积的、非常细节的数据,且访问频率很高,是面向应用的数据。
在逻辑层面上,这些数据都是以二维表的形式存储。严格地说,虽然ODS层不属于数仓建模的范畴,但是合理地规划ODS层并做好数据同步也非常重要。
https://help.aliyun.com/document_detail/126973.html?spm=a2c4g.11186623.6.587.75d34a3dm3bYFg
3)DW :DWS DWD 为数据分析提供服务(数据仓库层)
4)ADS 保存结果数据(应用层)
补充:
补充:
来源:https://blog.csdn.net/xfg0218/article/details/85092196
补充:来源 https://help.aliyun.com/document_detail/126215.html?spm=a2c4g.11186623.6.586.50e72a40dOx2bM
补充2:
表命名要求
层级+业务说明+表后缀+时间周期(日/月/年)
表后缀:
DS 当日(不累加,按日计算出来的数据)
DT 当日(从1号累加到当日)
MM 当月(按月计算的数据)
DM,当月(按日计算出来的数据)
DW_BILL_ITEM_DT_${yyyyMMdd}
录入表名,若表的后面是动态日期的时候,日期部分需要用${}括起来
时间周期:
yyyy——表示按年分表(分区);
yyyyMM——表示按月分表
yyyyMMDD——表示按日分表
接口表ODS
ODS
维度表DIM
DIM
明细表 DW(明细级数据)
表后缀:
DS 当日(不累加,就当日计算出来的数据)
DT 当日(累加,从当月1号累加到当日的数据、也或者从当年1日累加到当日数据、按当日计算的全量数据)
MM 当月(按月计算的数据)
DM,当月(按日计算出来的数据)
DW_BILL_ITEM_DT_${yyyyMMdd}
录入表名,若表的后面是动态日期的时候,日期部分需要用${}括起来
汇总表 ST(统计级数据 / 汇总级)
DWS
临时表 temp
表中常见的i、s、a等也是代表了增量表、快照表、全量表
全量表就是存储了全部数据的表,没有分区之分,可以理解为总共就一个分区。全量表中存储了截至目前为止最新状态的全部记录,这就表示可能存在历史状态的更新。
因此全量表就是保留了全部数据的表,但历史可能状态会更新。
增量表:记录每天的新增数据,增量数据是上次导出之后的新数据。
快照表:按日分区,记录截止数据日期的全量数据
切片表:切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据
MPP
MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。
电信行业DOU(平均每户每月上网流量)
电信行业MOU(平均每户每月通话时间)
MOU:minutes of usage,每用户每月平均通话时间),可以统计至每年或者每月
电信行业ARPU(每用户每月平均收入)
Average Revenue Per User,指的是一个时期内(通常为一个月或一年)电信运营企业平均每个用户贡献的通信业务收入,其单位为元/户,衡量电信运营商业务收入的指标,也是衡量用户价值的重要指标。
ARPU注重的是一个时间段内运营商从每个用户所得到的收入。
电信行业ARPM(每分钟通话平均收入)
ARPM:Average Revenue Per Minute
以上是关于杂记宽表/窄表—事实表/维度表—数仓分层(ODS/CDM/ADS)—增量表/全量表——电信行业常见指标的主要内容,如果未能解决你的问题,请参考以下文章