数据仓库简介
Posted 金融科技探索
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库简介相关的知识,希望对你有一定的参考价值。
1. 什么是数据仓库
数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
1.1 面向主题
传统的操作型系统是围绕功能性应用进行组织的,而数据仓库是面向主题的。主题是一个虚拟的概念,是一种数据模型,可以理解为业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。比如一家公司的所有客户相关的数据放到客户主题中,当需要分析到所有与客户相关的内容,包括客户号,客户名称,性别,客户类型,客户级别,联系方式等等,均可以在该主题下找到。
1.2 集成
集成与面向主题是密切相关的,还是客户主题,假如某个集团公司下面有多个子公司,每个子公司都有其对应的面向客户,这些客户的类型,级别,性质等都有各自的特点与差异,并且都存放于自己独立的操作数据库中。现在需要从集团的层面去分析整个集团的客户情况,就必须将多个分散的数据源统一成一致的、无歧义的数据格式后,再放入到数据仓库中。因此数据仓库必须要解决诸如客户编码、名称、性别码值、计量单位不统一的问题,当完成了这些数据整合之后,该数据仓库就可以称为是集成的了。
1.3 随时间变化
为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数据。在联机事务处理(OLTP)系统中,要求高性能、高并发和极短的响应时间,处于这样的需求考虑,联机事务处理系统会根据数据的活跃度分级,把历史数据迁移到归档数据库中。而数据仓库中的数据是要反映出历史某个时间点的快照,并且能反映出从历史到当前的一个变化情况,这也就是“随时间变化”的含义。
1.4 非易失
非易失是指,数据一旦进入数据仓库,数据就不应该再有变化。操作型环境中的数据一般都会频繁更新,而在数据仓库中的数据一般不进行更新,因为这样才能保留数据的历史轨迹,才符合“随时间变化”。数据仓库的目的就是要根据曾经发生的事件进行分析,如果数据是可以修改的,将使历史分析变得没有意义。
2. 创建数据仓库的原因
从存储的角度看,数据仓库里的数据实际上已经存在于业务应用系统中,那么为什么不能直接操作业务系统中数据用于分析,而要使用数据仓库呢?列举部分原因如下:
(1)某些业务系统出于安全或者其他原因不能直接访问
(2)业务系统的版本变更很频繁,每次变更都需要重写分析系统并重新测试。
(3)很难创建和维护汇总数据来源于多个系统版本的报表
(4)各业务系统码值不统一,字段名称通常是硬编码,分析困难
(5)各系统数据格式不一致,如果日期格式,数字格式、精度等
(6)为不同的系统编写不同的处理方式,容易造成重复开发
(7)事务处理的优先级比分析系统高,所以如果两套系统在同一套硬件机器上,可能会造成事务处理系统性能下降
(8)有误用业务数据的风险
无论是建立数据仓库还是要实施别的项目,都要从实际业务需求、时间、成本、功能等几个角度去权衡比较,认真研究是否正在需要一个数据仓库。当你的组织很小,数据量少,业务单一,可能你真的不需要建立一个数据仓库。比较要建立一个数据仓库并使其发挥应有作用还是很有难度的,需要大量的人力、财力、物力,并且即便话费很大的代价完成了数据仓库的建设,在较短时间内也不易显现其价值。在没有专家介入,凭自身力量去建设数据仓库,是冒很大失败风险个。但是,当你的组织超过1000雇员,有数十个部门,业务产品众多,它面临的挑战是完全不同的。在这个充满竞争的时代,做出正确的决策对一个组织至关重要。而要做出最恰当的决策,仅凭孤立纬度的分析是不可能实现的。这时必须考虑尽可能多的相关性数据,结合多个纬度分析,而这个数据最好的来源就是一个设计良好的数据仓库。下面简单总结一下使用数据仓库的好处:
(1)将多个数据源集成到单一数据存储,因此可以使用单一数据查询引擎展示数据。
(2)缓解在事务处理数据库上因执行大查询而产生的资源竞争问题。
(3)维护历史数据。
(4)通过对多个源系统的数据整合,使得在真个企业的角度存在统一的中心视图。
(5)通过提供一致的编码和描述,减少或修正坏数据问题,提高数据质量。
(6)提供所有数据的单一通用数据模型,而不用关心数据源。
(7)向复杂分析查询交付优秀的查询性能,同时不影响操作型系统。
以上是关于数据仓库简介的主要内容,如果未能解决你的问题,请参考以下文章