数据仓库源数据处理

Posted ET之家

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库源数据处理相关的知识,希望对你有一定的参考价值。

数据仓库的源数据可以分为3个主要类别:生产数据、内部数据、外部数据.

生产数据

生产数据主要来源于企业的各种操作型系统。基于数据仓库的信息要求,要从不同的操作型系统中选择数据段。在操作型系统中,信息查询的范围很窄。你不能在操作型系统上查询没有预先安排的,所有的查询是可以预知的。我们不能跨越不同的操作型系统中进行某个特定的查询。

生产数据最大的调整就是将从不同系统中得到的数据进行标准化,并且将它们转换,整合成数据仓库可以存储的有用数据。

内部数据

每个组织中的用户都有自己的电子表格、文档、客户信息,有的时候甚至有部门数据库。这就是内部数据,其中有些部分对数据仓库是有用的。

内部数据增加了数据转换和整合过程的复杂性。我们需要事先计划好如何获取内部数据。

外部数据

外部数据所起的作用是内部数据无法替代的。企业内部数据可以告诉企业过去和现在的生产和经营情况,为了了解行业发展趋势及其他公司进行比较,需要从外部数据源获取数据。

从不同的操作型系统和外部得到数据后,需要为数据仓库的存储做准备。我们需要进行数据的抽取、转换和装载。

数据抽取

依赖市场上的工具进行抽取就可以。常见的是,数据仓库实施人员将数据源抽取到一个独立的物理环境里,这样可以更容易的将数据转移到数据仓库中。在这个独立的环境中,你可以将数据放入许多文本文件、关系数据库或两者的结合体重。

数据转换

在每个系统的实施中,数据转换是非常重要的工作程序。首先,要对每一个不同来源的数据进行清洗。清洗的过程可能是更正错误的拼写,检查多个数据源之间编码或压缩格式的矛盾,或者补充遗失数据的默认值,也可以排除多个数据源系统中取同一个数值时出现的重复问题。

对数据元素的标准化也是数据转换过程的一个很重要的组成部分。要对数据类型进行标准化,也要对来自不同数据源的相同数据元素长度进行标准化。语义的标准化也是一个重要的任务,你要解决异形同义和同音异义的问题,当来自不同源系统的不同的词表示相同的意思时,你就得解决好异形同义的问题。当相同的字段名在不同的数据源系统中代表不同的意义的时候,就必须解决同音异义的问题。

转换过程还包括组合从不同数据源提取的数据,要组合一个源记录中提取的数据,或者对很多源记录中提取的数据进行组合。数据转换还包括清除没有用的源数据,并将源记录进行新的组合。

数据转换工作也要包含适当的数据汇总。

当数据转换工作结束后,我们就得到了清理、标准化和汇总后的完整数据了。可以将数据装载到数据仓库的每组数据中。

数据装载

当数据仓库开始工作后,需要继续提取源数据的变动,将这些数据变动按照数据仓库的要求进行转换后,存入正在工作的数据仓库中。


以上是关于数据仓库源数据处理的主要内容,如果未能解决你的问题,请参考以下文章

苏宁数据仓库应对数据爆发式增长的技术演进

在hive仓库中建贴源数据表

数据仓库架构

数据仓库设计方法

技术大数据时代,传统数据仓库技术是否已经过时?

Dremio 杀死所有数据仓库