数据仓库初识

Posted orsql明火

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库初识相关的知识,希望对你有一定的参考价值。

学习笔记——2018/07/04。

数据仓库的起源可以追溯到信息存储的起源。计算机初始的存储介质是穿孔卡和纸带,主文件存储在廉价的适合于存放大量数据的磁带上。到七十年代的时候出现新的数据存储和访问技术,即直接存取存储设备(Direct Access Storage Device ,DASD),磁盘存储可直接访问数据(磁带访问数据是顺序访问)。随着DASD的发展,出现了数据库管理系统(Database Management System,DBMS)的新型管理系统,用于使程序员方便地在DASD上存储和访问数据。dbms的出现也伴随着数据库概念的出现。八十年代出现的管理信息系统MIS(Management Information System) 是用来进行管理决策的处理过程。在此之前,没有任何一个单一数据库可以同时用于操作型事务处理和分析处理。

管理决策的过程当中涉及到大量的数据处理,最开始的步骤是数据抽取。数据抽取又衍生出“蜘蛛网”(一种失控的抽取处理模式:自然演化式体系结构)——在已经抽取的数据上再经过N次抽取。以这种体系结构建立起来的系统缺乏对信息的集成性,及没有可以满足DSS分析员需求的历史数据。

体系结构化数据仓库的出现是这种体系变化的必然发展。体系结构化环境的核心,主要存储两种数据:原始数据和导出数据。两种数据的差异引发的数据分离的自然扩展过程:

数据仓库初识

        数据仓库存放不可更新的集成原始数据及以一些导出数据。用于管理决策

        下面是一个贯穿体系化结构环境的例子:

        当数据从操作系统到数据仓库环境时,需要对数据进行集成,否则数据将会毫无意义。数据集成可以用于支持数据的企业视图,数据的企业视图书体系结构化环境的本质之一。

    

以上是关于数据仓库初识的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库初识

数据仓库系列:初识数仓

初识大数据(三. Hadoop与MPP数据仓库)

mysql初识

初识Hive

初识Hive