满满的干货:带你一起走进数据仓库的世界

Posted 洛洛成长

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了满满的干货:带你一起走进数据仓库的世界相关的知识,希望对你有一定的参考价值。

上一篇简单的说了一下BI,现在带大家认识一下数据仓库(DW),DW是BI的基石,也是做数据分析,数据挖掘的基础,把DW做好了,数据才能枝繁叶茂,蓬勃生长。大家应该都听说过数据库,那么数据仓库也数据库究竟有什么不同呢,接下来就让我一一解除大家的疑惑吧。



01


数据库:顾名思义,就是存放数据的地方,数据大家都知道是什么,所有具有描述性的符号记录都是数据。数据库的数据具有永久存储,有组织和可以进行共享三个特点。而数据仓库则是基于数据库基础上对数据进行汇总整合。


之前说过BI是针对企业数据,对企业数据进行分析,从而让企业决策者更好的决策,所以数据仓库的建立必须要针对业务需求,以业务为驱动。


如何来判断一个数据仓库有没有价值主要从以下几个方面来看:


1. DW需要方便的存取信息:

因为主要是做给业务人员来看的,所以数据必须具体直观性,内容需要易于理解,并且能以各种形式和维度进行分割合并数据。


2. DW 必须以一致的形式和格式展示信息:

首先确定数据准确性是可信的,因为DW是汇总了不同来源的数据,需要对这些数据进行数据清洗后,格式保持统一,确保可放在不同数据源能够共用。


3.DW 必须能够可变化性,可拓展性:

因为企业的需求也是不断在变化的,业务环境和数据也可能发生变化,所以在创建之初就必须考虑这些变化情况,变化后的数据也要方便的存储到数据仓库中,已经存在的在变化之后也不能发生损坏和丢失数据。


4.DW需要实时展示信息:

因为主要用于操作决策,当然信息最好能够实时更新,但是由于网络和工具的局限性,一般都会隔天更新。


当然还有一些关于数据仓库安全方面的地方需要注意,但是对于新手来说,只要满足以上几点就完全可以,至于安全方面的内容,咱们之后再说。


介绍完数据仓库咱们说一下数据仓库最重要知识点之维度建模。首先普及一下:像日期,产品,地理位置这些描述性的表叫做维度表,像数量这种数值型的叫做事实表。在关系型数据库中实现的维度模型主要分为星形模型,雪花模型,在多维数据库环境中实现的维度模型通常为OLAP多维数据库。


  • 星形模型



一般来说,描述字段比较简单短洁,没有多种关联关系的都用星形模型。


  •  雪花模型



雪花模型是对星形模型的一种延伸,一般描述字段过多,或者多种关联关系,会选择雪花模型,比如说事实表是通过地理维度关联到销售人员维度,如果把地理维度和销售人员维度汇总起来的话,不利于数据的拓展性,所以必须分为两个维度这样就产生了雪花模型。



码字不易,多多谅解,下一篇咱们主要介绍一下事实表和维度表,以及它们之间如何进行连接的。踏实务实才能走得更远,每天一点小知识,一天一个小技能。希望大家多多支持哦。


以上是关于满满的干货:带你一起走进数据仓库的世界的主要内容,如果未能解决你的问题,请参考以下文章

怒肝2W长文 !带你进入数据仓库Hive的世界理论+实践

信管•讲座回顾 |《数据仓库那些事儿》

让我们一起走进大数据开源项目--第1节

带你走进 SpringMVC 的世界

一个"收纳箱"带你走进数据库的世界

走进大数据丨 数据仓库和数据库的区别