数据仓库系统

Posted m0_66057675

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库系统相关的知识,希望对你有一定的参考价值。

数仓分层

 数仓分层的作用

①清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解,实现业务数据解耦。
②减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
③统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径
④复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题

 范式理论

范式概念:

数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。

目的:降低数据冗余

缺点:大量join导致查询效率低下

分类

第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。 

数仓建模

两种建模方式

关系建模和维度建模

关系建模

关系建模将复杂的数据抽象为两个概念——实体和关系,并使用规范化的方式表示出来。关系模型如图所示从图中可以看出,较为松散、零碎,物理表数量多

关系模型严格遵循第三范式(3NF)数据冗余程度低,数据的一致性容易得到保证。由于数据分布于众多的表中,查询会相对复杂,在大数据的场景下,查询效率相对较低

维度建模

 维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。表结构简单,故查询简单,查询效率较高。

维度表和事实表

      维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。    例如:用户、商品、日期、地区等。

维表的特征:

  • 维表的范围很宽(具有多个属性、列比较多)
  • 跟事实表相比,行数相对较小:通常< 10万条
  • 内容相对固定:编码表

   事实表:事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等),例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:250块钱、一瓶

每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。

事实表的特征:

  • 非常的大
  • 内容相对的窄:列数较少(主要是外键id和度量值)
  • 经常发生变化,每天会新增加很多。

事实表的分类

事务型事实表,周期型快照事实表,累积型快照事实表

维度模型分类

 

星型模型和雪花模型

 

以上是关于数据仓库系统的主要内容,如果未能解决你的问题,请参考以下文章

大数据之数据仓库分层

大数据平台中,数据仓库如何分层?

数据仓库的基本理论

数据仓库中每个事实的开始和结束期间

数据仓库 - 多维模型 - 事实表小于维度表

设计数据仓库/星型模式 - 选择事实