认识数据仓库
Posted 数据姐姐
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了认识数据仓库相关的知识,希望对你有一定的参考价值。
数据仓库的基本概念
数据仓库(Data Warehouse),可简写为DW或DWH。数据仓库,是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库本身并不“生产”数据,它的数据来源于外部,这也就是之所以叫“仓库”而不叫“工厂”。
特点
面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉
集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作
随时间变化:随着时间变化,仓库的数据量也会不断增大
信息本身相对稳定:数据装入以后一般只进行查询操作,没有传统数据库的增删改操作
简单来说,数据仓库就是整合多个数据源的历史数据进行细粒度的、多维度的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表,它不是简单的数据再存储,而是数据的再“组织”过程,站在仓库的角度我们会发现数据的新视角。
数据仓库的基本架构
数据源:就是提供初始数据的地方,是数据仓库系统的基础。通常包括企业内部数据和外部数据。内部数据包括各种操作型数据库中的数据以及文档数据,日志数据。外部数据是从系统外部获取的数据,如爬取的数据。
ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换 (Transform)、装载 (Load)的过程。数据抽取,就是从不同数据源中选择数据仓库所需要的数据。这些数据可能具有的特点是:来自不同平台、不同结构、不同类型等。数据清洗,由于数据来自于不同的数据源,因此数据质量难以保证,比如存在数据不一致性、量纲不同、值缺失等情况,就需要对抽取到的数据进行清洗。数据转换,就是将面向应用的数据转换成面向主题的数据,比如时间格式统一。数据加载,就是将数据装入到数据仓库中。
元数据:就是整个数据仓库的所有描述性信息,即关于数据的数据。它包含表中的字段,表盒表之间的关系,索引约束等。
数据集市:就是面向部门或者应用的小型数据仓库,它是企业级数据仓库一个子集。二者的不同,一是主题域的不同,二是数据规模的不同,三是访问效率的不同。
数据仓库的价值
数据仓库的基本特征是面向主题的、集成的、随时间变化的、相对稳定的,而数据仓库的价值正是基于这4个特征体现的:
1、高效的数据组织形式
面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。
2、时间价值
数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。从应用来看,使用数据仓库可以大大提高数据的查询效率,尤其对于海量数据的关联查询和复杂查询,所以数据仓库有利于实现复杂的统计需求,提高数据统计的效率。
3、集成价值
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
4、历史数据
记历史是数据仓库的特性之一,数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。
以上是关于认识数据仓库的主要内容,如果未能解决你的问题,请参考以下文章