数据仓库技术在住建行业应用的工程实践(上)

Posted DIST上海数慧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库技术在住建行业应用的工程实践(上)相关的知识,希望对你有一定的参考价值。

在过去,数据像一条河流,从可以看得见的源头顺着能够预制的方向流动。现在,数据就像一个不停翻滚的海洋,正在不断延伸自己的海岸线。要从海量数据中筛选、抽取信息并将其转换为可事实的知识,都是艰巨远大的任务。

——《智慧的分析洞察》

                                                



数据仓库的定义


数据仓库之父 Bill Inmon 在《Building the Data Warehouse》一书中所提出的定义被广泛接受——数据仓库(Data  Warehouse)是一个集成的(Integrated)、面向主题的(Subject  Oriented)、反映历史变化的(Time  Variant)、相对稳定的(Non-Volatile)数据集合,用于支持管理决策。


数据仓库在金融保险行业的应用经验


数据仓库在保险行业内应用已经非常成熟且颇有成效,主要的体现在数据仓库技术帮助企业更好地认清自身经营状况,满足金融保险行业日益增长的各种查询、统计、报表以及分析的需求,提高防范和化解经营风险的能力,有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至利用这些数据来设计金融保险企业的发展宏图,帮助企业在激烈的竞争中赢得先机。


目前来看,国内的金融保险公司都已经建立了事物处理数据库软件系统(如财务系统、业务系统、理赔系统等不同的软件系统)。而且多年来,各家金融保险主体通过各类应用软件系统,积累了大量宝贵的历史数据,这些数据不仅是某个金融保险主体的,甚至是整个国内金融保险行业最为重要的财富和积累。而数据仓库技术可以使这些财富能够产生出真正的价值。


数据仓库在住建行业的应用实践


借鉴保险等行业在数据仓库技术方面的经验,延申到住建行业,数据仓库技术同样可以为我们解决行业内分析决策问题提供新的思路。


在住建行业内,很多单位早已建成业务、事务管理信息系统,比如住房管理系统、项目建设管理系统、住房租赁管理系统、行政OA系统等等。我们可以通过数据仓库技术打破各业务支撑数据库之间的壁垒,使用积累的大量业务数据通过数据分析和数据展现,辅助领导决策管理,真正做到“让数据说话”,“让数据产生价值”。


下面以住建行业公共住房业务应用为例,结合Bill Inmon对数据仓库的定义,通过数据仓库的特征与结构来详细阐述一下数据仓库技术。


数据仓库的特征与结构


数据仓库的特征

结合住建行业中的住房主体而言,数据仓库的特点应着重表现为:

集成的   数据仓库中的数据是在对原有分散在各个住房业务处理系统数据库的数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个住房业务的一致的全局信息。而且数据仓库为了提高查询反应速度,存储了大量的统计结果(例如各类子业务指标、业务报表),因此从各个数据源抽取数据到数据仓库时,必须要经过统一与综合编码。


■ 面向主题的   操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。如轮候情况、租房情况、售房情况,房源情况等,这些是住建局使用数据仓库进行住房业务决策时所关心的重点方面。


■ 反映历史变化的   数据仓库技术中的相关数据通常包含历史信息,系统记录了住房业务从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对住房业务的发展历程和未来趋势做出定量分析和预测。


■ 相对稳定的   数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。


数据仓库的结构

整个数据仓库是一个包含四个层次的体系结构,具体由图 2-1 表示:

图 2-1   数据仓库系统体系


■ 数据源  一般意义上来说,数据源作为整个数据仓库系统的基础,也是整个系统的一个数据的源头。通常包括企业内部信息和外部信息。数据源具有跨操作系统,跨存储媒体,跨数据库,跨数据媒体的特征。这些原始的信息和数据首先要经过数据的预处理,才能进入到数据仓库中。外部信息一般来说是要包含着一些市场的竞争、各家主体的信息等等,而内部信息往往是包括了日常存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据。


■ OLAP 服务器  一般意义上来说,对日常工作有利的业务分析需要的数据要进行整合,可以按照多维模型来组织应用,以便分析,发现趋势。它的一般应用可以按一下来分:ROLAP、MOLAP 和 HOLAP。


■ 数据的管理与存储   一般意义上来说,这一部分当属是整个数据仓库系统的主要核心。针对现有各个业务系统的数据,进行抽取和清理,并有效的集成,按照主题去进行组织。数据仓库按照相关数据的覆盖范围可以分为企业级的数据仓库和部门级的数据仓库。数据仓库的真正关键是数据的管理和存储。数据仓库的组织、管理方式决定了它有别于其他传统数据库,同时也决定了它所对外部数据的表现形式。要决定采用什么技术和产品来建立数据仓库的核心,就需要从数据仓库的技术特点进行着手分析。


■ 前端工具   主要包括各种查询工具、报表工具、数据挖掘工具、数据分析工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对 OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。


如何构建数据仓库


通常意义上,开发系统,也就是在构建数据仓库前,需要首先来确定数据仓库这个项目的整体构架,不可避免的要使用或应用一些建模技术,从而对底层数据或是其他数据进行较为仔细的分析和认真的研究,通过以上的过程,设计出合理和高效的 ETL 过程,最终的目的是要将整个项目付诸实施。


数据仓库体系结构

按照系统开发的思路,对于一个数据仓库的结构应该如何定义呢,主要是通过对应用的分析得出的结果,而且它会决定这次数据仓库技术应该如何分布甚至是如何对各个管理点进行划分,得出最重要的结构图。


通常情况下可以采用这三类方法来确定数据仓库的体系结构:一种是单独的数据仓库,第二种是单独的数据集市,最后一种是前两者的集合,不过是数据仓库做为主要部分,而数据集市作为其从属关系存在。


在实践中,我们选择了“数据仓库+数据集市”的混合模式,使用数据仓库存储了多源业务库和元数据库,将数据分析汇总到多个层次,再从数据仓库按照面向的业务角度抽取相关数据到各个数据集市。也就是说数据仓库可以包含多个主题域,每一个主题域就是一个数据集市。


数据仓库的建模技术

目前来说,市场上比较主流的数据仓库建模技术大体上分为以下几类:一类是维度建模,一类是实体关系建模。 一方面,数据模型决定了能用到的数据仓库所能够进行的分析的类型、效率等等内容,想要达到一种更快、更加合理的模型;而从另一方面讲,当设计了不同的模型后,这些模型之间的不同又会产生不同的储存和一些数据加载或是更新上的不合理的策略,这些内容都会直接影响到系统的开发进展,进而影响到整个项目的资金运行、后期投入。可以说,数据仓库建立模型是否正确,关系特别重大。


维度建模

维度建模方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、房型、行政区划等,事实是要度量的指标,如申请数量、受理数量等。公共住房申请业务的维度建模示例如图4-1所示。

 

数据仓库技术在住建行业应用的工程实践(上)

图 4-1   维度建模

 

数据源的分析 

通常情况下,对数据的理解可以分为两个方面,首先的一种实时数据,它是来自于日常的业务操作系统的,而另外一种就是对这些数据的汇总。这两种类型的关系可以见图 4-2。

 

图 4-2   数据仓库的数据源


实时数据

一般情况下,一个企业如果想要建立决策分析系统,那么它肯定是有了大量的数据作为依据的,而这些大量的数据都是来自于日常所常用的业务操作系统。这些相关的数据比较详细,而且比较规范。它们代表了整个企业目前所处的状态。而且一个企业的正常运转往往是离不开这些数据的。这些数据之间流转的程序更深层次的反应了企业的整体运行流程和经营状态。


上述的这些实时的数据,基本上可以作为开发数据仓库项目的源泉。但是这些数据不能直接被数据仓库使用,需要对这些数据进行相关的处理,以便能够达到所需要的程度。将这些实时的数据经过处理,变成了适合用来进行业务分析和决策的数据,不仅提高了数据的质量,而且还能发挥这些数据的用途,保证了整个项目的顺利开展。


汇总数据

将一些细节性的数据通过不同的计算方法进行操作后,得到了一些比细节数据更合适的数据,就称之为汇总数据。例如在每月初要对上月的总体情况作一个汇总,比如说上月的保障房申请人是多少、受理了多少人、发生了多少审核不通过的案件、最终审定了多少等等。在企业做业务分析时,往往很少用到最细节的数据,一般用的都是经过一定的处理后的汇总数据,这样才能更为快捷的对业务总体情况进行分析,否则只是运用最底层的数据的话,只能看到单一的数据,是无法进行决策分析的。


但不能说在数据仓库中只存储汇总数据就可以了,往往还需要对某一特定的事件进行分析时,就会用到一些细节数据,那样的话,就需要在到实时数据中进行查询了。 所以,通常会在数据仓库中同时保留实时数据和汇总数据,但是为了保证系统的效率,往往还会对汇总数据做出一定的优化,这样才能达到高效平稳的运行,更加快捷的支持企业发展决策。

本篇从概念、结构、构建来阐述了数据仓库技术在住建行业中的应用场景,下一篇将和大家分享一下数据仓库在住建行业中如何具体落地。


想要获得更多信息,请关注我  


文章不错
点个赞吧


以上是关于数据仓库技术在住建行业应用的工程实践(上)的主要内容,如果未能解决你的问题,请参考以下文章

马蜂窝数据仓库的架构模型与应用实践

洋码头数据仓库实践

有赞数据仓库实践之路

实践案例分享有赞数据仓库实践之路

数据仓库知识点梳理

国内云端数据仓库——HashData行业实践