初识数据仓库
Posted 大数据范儿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识数据仓库相关的知识,希望对你有一定的参考价值。
基本概念
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
面向主题:
在
一个较高的管理层次上对信息系统的数据按照某一具体的管理对象
进行综合、归类所形成的分析对象。
各个主题有完整、一致的内容以便在此基础上进行分析处理;
主题之间有重叠的部分,反映主题间的联系,重叠是逻辑上的,不是物理上的;
各主题的综合方式存在不同;
主题域应该具有独立性和完备性 。
集成:
经过抽取、筛选、清理、转换、综合等工作,
从企业原来已经建立的数据库系统中抽取数据,
原有的系统处理的是业务的流水,
不适合分析处理;
在进入数据仓库
之
前必须进行综合、计算
可
能会抛弃一些
不需要的数据项和一些脏数据,
必要时还会增加一些可能涉及到的外部数据。
稳定的(即非易失的):
在某个较短时间段来看是保持不变的,
操作型数据库保存的是短暂的操作数据,但是数据仓库存的大部分是历史的数据,则这样才能对分析提供支撑。
随时间变化而变化(即时变的): 数据仓库在一个较长的时间看来是变化的,大部分的数据仓库需要的是历史5-10年的数据,所以他会定期的从操作性数据库中获取新的数据,并删除超过了数据5-10年的那部分数据。
数据仓库的应用
数据仓库汇总了企业的全部数据信息,对这些大量的数据进行分析、挖掘可以给公司提供准确的生产经营信息,可以及时掌握公司各方面的情况并作出及时的调整。
数据仓库的应用包括数据报表、多维数据分析、用户行为分析、用户画像等。最经典的大家最熟悉的就是淘宝双十一的大屏啦
以上是关于初识数据仓库的主要内容,如果未能解决你的问题,请参考以下文章
数据仓库初识
数据仓库系列:初识数仓
初识大数据(三. Hadoop与MPP数据仓库)
mysql初识
初识Hive
初识Hive