“浅谈”数据仓库

Posted 匠心独运维妙维效

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“浅谈”数据仓库相关的知识,希望对你有一定的参考价值。

中国光大银行信息科技部系统运维中心



数据仓库曾经也是风光一时,想当年“ETL”、“模型设计”那是人人追捧,别人看你都是眼中冒着金光.如今随着大数据技术的兴起,“BIG DATA”、“AI”后来居上,数据仓库在人们的眼中已经褪去了高光,真是十年河东十年河西。当然所谓“失之东隅收之桑榆”,大数据技术的兴起,在一定程度上赋予了数据仓库新的含义,焕发第二春。


数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

数据仓库之父比尔·恩门(Bill Inmon提起数据仓库就会提起几个名词:

OLAP,联机分析处理,支持复杂的分析操作,侧重决策支持,且提供直观的查询结果。主要面向决策分析人员,涉及大数据量查询工作。

ETLExtract-Transform-Load,抽取、转换、加载。我行数据仓库严格来说是一个LTE的过程。

Share Nothing是一种分布式计算架构,在这种体系架构下,每个节点都是独立的,不存在单点竞争,优点是扩展性好,多节点共同工作,性能高。Teradata/Greenplum/Hadoop 等分布式数据库都是该计算架构。



言归正传,接下来介绍一下我行的

数据仓库系统。

“浅谈”数据仓库

我行数据仓库于2006年建立,目前依然以传统MPP数据库作为基础,风风雨雨走过了12个年头,做为我行的重要数据资产,数据仓库依然起着非常重要的作用。

历经12年发展历程,我行数据仓库也在不断发展,由单一使用Teradata数据库产品,向着多元数据仓库发展和探索,目前已包含Teradata、Greenplum等产品。数据仓库也已由2006年的10余个入仓系统、10余个下游集市,发展为现如今的80余个入仓系统、40余个下游集市。

“浅谈”数据仓库


架构也逐步由单一的Teradata,向Teradata+Greenplum多元发展。

“浅谈”数据仓库




“浅谈”数据仓库

上边咱们谈了仓库的基本架构,那么我想大家对数据仓库的加工流程也比较好奇,那么别着急,咱们往下看。

(1)文件检查

上文中提到,数据仓库的数据来自于80多个源系统,这么多数据入仓当然不能随心所欲,所谓“无规矩不成方圆”,入仓文件有很多约定和规范,在文件级的检查做了很多工作。

“浅谈”数据仓库

(2)文件加载

文件级校验通过,那么文件就开始加载入库了,首先会进到数据仓库的数据缓存区(SDATA),SDATA中的表结构和源系统的表结构基本是保持一致的。

(3)入仓

数据进入缓存区后,重头戏来到了,源数据表将按照TeradataFS-LDM模型进行入仓,进入PDATA

FS-LDM产品中按照主题域组织数据。FS-LDM产品中共有内部机构、当事人、客户资产、产品、地域、渠道、营销活动、协议、财务和事件等十大主题域,产品中的十大主题域完全覆盖了对银行涉及业务范围的描述。

“浅谈”数据仓库

(摘自 ceb_ldm培训教材.doc


以上,入仓过程完成,后续集市就可以利用PDATA的数据进行加工处理,按照业务需求进行BI展示或者分析决策。

(4)TDGP的数据交互

目前我行数据仓库是TeradataGreenplum多元发展,两者之间存在着数据交互过程,并不是一个纯粹的自上而下的架构和逻辑。两者之间的数据交互主要是通过数据导入导出实现,这也带来了一些弊端,异构数据库数据导入和导出的效率还是较慢,任务调度之间也会出现相互等待的现象。




(1)国产数据仓库产品的探索

 数据是银行的重要资产,安全可控是银行的必然要求,因此我行数据仓库除了Teradata和Greenplum的使用外,还对国产数据仓库产品进行了相关的尝试和探索。

(2)多元数据平台的展望

 MPP数据库在处理结构化数据具有较好的优势性,但是数据的多元化,MPP数据库的不足也逐渐体现出来,我行大数据应用平台应运而生,使用hadoop技术,针对数据多样性,不仅补充了MPP数据仓库的不足,还为我行的数据应用提供了新的发展方向。而我行的数据仓库平台也必然会向数据仓库+大数据应用平台的多元数据平台发展。



总而言之,已经进入“数据时代”的我们,如何利用数据发展自己,是如今所有人都面临的机遇和挑战,大数据平台和大数据相关应用的建设也已经体现出了这一点,而作为目前我行的数据先行者和数据拥有者“数据仓库”也还将在我行的“数据版图”中扮演重要的角色。

以上就是笔者对我行数据仓库的一些简单介绍,欢迎大家指正。

数据仓库还涉及很多方面,包括Automation的调度,数仓的维护事项等等,预知后事如何,请看以后分解。


以上是关于“浅谈”数据仓库的主要内容,如果未能解决你的问题,请参考以下文章

“浅谈”数据仓库

浅谈数据仓库的基本架构(转)

动态数据仓库设计与应用浅谈

#44 浅谈数据仓库(DW & BI)

浅谈数据仓库的ETL

浅谈数据仓库两种方法论