数据仓库:从过去到未来(上)

Posted Datablau

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库:从过去到未来(上)相关的知识,希望对你有一定的参考价值。

By Amber Lee Dennis


“数据仓库之父” Bill Inmon将数据仓库(DW)定义为“支持管理决策过程的面向主题的,集成的,随时间变化,可持续的数据集合”。他的白皮书《现代的数据架构》Inmon补充2,数据仓库代表“传统智慧”,现在是企业基础设施的一个标准部分。

 

数据挖掘教科书作者Han,Kamber和Pei 在KDnuggets的数据科学家MatthewMayo的一篇题为“ 大数据关键术语解释”的文章中引用了数据仓库的概念,他将数据仓库定义为一种数据存储架构,允许“企业管理人员系统地组织,理解和使用他们的数据来制定战略决策。“当然,数据仓库是许多现代企业中熟知的架构。

 

数据仓库已经成功地用于多种不同的企业用例,尽管数据仓库也已经转变,并且如果他们想要跟上当代企业数据管理不断变化的需求,就必须继续。

 

Inmon的数据仓库定义仍然是准确的?重新解释Inmon的数据仓库定义,称之为“基于信息技术的基础架构 - 为组织定期整合,收集和准备数据,以便于分析”。

 

Oracle数据仓库指南将数据仓库定义为关系数据库:“专为查询和分析,而不是交易处理。它通常包含来自交易数据的历史数据,但可以包含来自其他来源的数据。它将分析工作与事务工作分开,并使组织能够整合来自多个来源的数据。“

 

Oracle数据仓库指南以多种方式扩展了Inmon的四个特点:

  1. 面向主题:数据仓库旨在帮助您分析数据。例如,要了解有关公司销售数据的更多信息,可以构建专注于销售的仓库。使用这个仓库,你可以回答“谁是我们去年这个项目的最佳客户?”这样的问题。这种按主题定义数据仓库的能力,在这种情况下的销售,使得数据仓库面向主题。

  2. 整合:整合与主题定位密切相关。数据仓库必须将来自不同源的数据转换成一致的格式。他们必须解决诸如计量单位之间的冲突和不一致之类的问题。当达到这一点时,被认为是一体化的。

  3. 持久性:持久性是指一旦进入仓库,数据不应该改变。这是合乎逻辑的,因为仓库的目的是使您能够分析已经发生了什么。

  4. 时间变量:为了发现业务趋势,分析师需要大量与时间关联的数据。这与在线事务处理(OLTP)系统形成鲜明对比,在这种系统中,性能需求要求将历史数据移至归档。数据仓库关注时间变化是时间变量术语的含义。

 

数据仓库结构

 

Oracle将数据仓库体系结构分解为三个简单的结构:基础,暂存(Staging)和数据集市。

基础结构中,操作系统和文件提供原始数据和数据以及元数据和摘要数据,最终用户可以访问它进行分析,报告和挖掘。位于数据源和仓库之间的分段区域,为进入仓库之前要清理的数据提供了一个单独的位置。数据集市,组织内的不同部门的定制需求,您可以通过添加数据集市来实现这一点,这些数据集市是针对特定业务领域而设计的系统。例如,可以在仓库中为销售,库存和采购设立单独的数据集市,最终用户可以使用一个或所有部门的数据集市。

 

数据仓库是如何构建的?

 

Eckerson集团首席顾问WayneEckerson 在一篇名为“构建数据仓库的四种方法”的文章中比较了创建数据仓库最常用的方法。

 

他说:“数据仓库管理人员需要了解这些方法,但是不要依赖这些方法。“

 

Eckerson讨论的数据仓库的四种主要方法是:

 

自上而下(Top-Down)方法的主要特点

强调数据仓库。

从设计一个DW的企业模型开始。

部署由临时区域,DW和“依赖”数据集市组成的多层架构。

暂存区是持久的。

DW是企业导向的; 数据集市是功能特定的。

DW有原子级别的数据; 数据集市拥有汇总数据。

DW使用基于企业的规范化模型; 数据集市使用主题特定的维度模型。

用户可以查询数据仓库和数据集市。

 

自下而上(Bottom-Up)方法的主要特点

强调数据集市。

首先为数据集市设计一个维度模型。

使用由分段区域和数据集市组成的“扁平”架构。

临时区域在很大程度上是不持久的。

数据集市包含原子数据和摘要数据。

数据集市可以提供企业和功能特定的视图。

数据集市由单个星型模式组成,逻辑或物理部署。

数据集市逐步部署,使用一致的维度“集成”。

 

混合(Hybrid)方法的主要特点

强调数据仓库和数据集市; 融合“自上而下”和“自下而上”的方法。

同步开始设计企业和本地模型。

花 2-3周的时间创建一个高层次,规范化的企业模型。

通过非持久存储区域填充原子数据和汇总数据。

模型作为一个或多个星型schema来管理。

使用 ETL工具填充数据集市,并在ETL工具和数据集市之间交换元数据。

当用户需要在原子级上查看整个集市的视图时,在数据仓库背后填充数据仓库; 实例化“充实”企业模型,并将原子数据移动到DW

 

联邦(Federated)方法的主要特点

强调需要整合新的和现有的异构BI环境。

承认组织和系统不断发生变化的实际情况,以至于难以实施正式的架构。

合理使用任何可能的手段来实施或整合分析资源,以满足不断变化的需求或商业条件。

鼓励组织尽可能分享维度,事实,规则,定义和数据。

 

通过理解这些不同的方法,Eckerson说,组织可以根据最佳实践模型的基础创建一个满足其独特需求的方法。




以上是关于数据仓库:从过去到未来(上)的主要内容,如果未能解决你的问题,请参考以下文章

关于未来的打算——ETL/数据仓库工程师的任职要求

数据仓库概述

从行业角度看,数仓领域的未来是什么?

#44 浅谈数据仓库(DW & BI)

数据仓库技术在住建行业应用的工程实践(上)

IPFS将是未来最大的数据仓库!