数仓初识-理论知识

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数仓初识-理论知识相关的知识,希望对你有一定的参考价值。

参考技术A

数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合。

下面对上述分层进行简单叙述,下面会专门对每层进行详细描述的;

该层主要做了数据标准化处理,并开始进行一部分的维度退化工作(维度表合并工作),但这一层总体还是范式设计

该层开始面向主题的进行宽表设计,对DWD层的数据结构进行反范式设计,减少数仓查询的Join操作

ADS层也称之为数据集市层,是为了屏蔽业务直接查询数仓从而导致数仓压力增大的问题,所以该层会使用很多组件如Kylin、ES等组件加速数仓查询速度。

OLTP为在线事务处理系统。主要操作是随机读写,为了保证数据一致性、减少冗余,常使用关系模型,经常使用三范式规则来减少冗余。

OLAP为在线联机分析系统,关注数据整合,以及分析、处理性能,OLAP根据存储方式不同分为 ROLAP、MOLAP、HOLAP 三种建模方式

ROLAP建模有如下方法:ER模型、维度模型(常用)、Data Value、Anchor

维度建模
维度模型分为:维度表、事实表

如下图:该多维数组CUBE中,有三个维度,当查询的时候按照group by xxx的时候,可以直接按照相应的xxx维度去查询对应的立方体里的数据。

常见的任务类型:

以上是关于数仓初识-理论知识的主要内容,如果未能解决你的问题,请参考以下文章

初识分布式存储

数据仓库之扫盲篇

数据仓库之扫盲篇

[数据结构] 主席树初识(理论,代码待补)

数仓建模分层理论

电商数仓数仓理论