“浅谈”数据仓库
Posted 匠心独运维妙维效
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“浅谈”数据仓库相关的知识,希望对你有一定的参考价值。
中国光大银行信息科技部系统运维中心
数据仓库曾经也是风光一时,想当年“ETL”、“模型设计”那是人人追捧,别人看你都是眼中冒着金光.如今随着大数据技术的兴起,“BIG DATA”、“AI”后来居上,数据仓库在人们的眼中已经褪去了高光,真是十年河东十年河西。当然所谓“失之东隅收之桑榆”,大数据技术的兴起,在一定程度上赋予了数据仓库新的含义,焕发第二春。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
数据仓库之父比尔·恩门(Bill Inmon)提起数据仓库就会提起几个名词:
OLAP,联机分析处理,支持复杂的分析操作,侧重决策支持,且提供直观的查询结果。主要面向决策分析人员,涉及大数据量查询工作。
ETL,Extract-Transform-Load,抽取、转换、加载。我行数据仓库严格来说是一个LTE的过程。
Share Nothing是一种分布式计算架构,在这种体系架构下,每个节点都是独立的,不存在单点竞争,优点是扩展性好,多节点共同工作,性能高。Teradata/Greenplum/Hadoop 等分布式数据库都是该计算架构。
言归正传,接下来介绍一下我行的
数据仓库系统。
我行数据仓库于2006年建立,目前依然以传统MPP数据库作为基础,风风雨雨走过了12个年头,做为我行的重要数据资产,数据仓库依然起着非常重要的作用。
历经12年发展历程,我行数据仓库也在不断发展,由单一使用Teradata数据库产品,向着多元数据仓库发展和探索,目前已包含Teradata、Greenplum等产品。数据仓库也已由2006年的10余个入仓系统、10余个下游集市,发展为现如今的80余个入仓系统、40余个下游集市。
架构也逐步由单一的Teradata,向Teradata+Greenplum多元发展。
上边咱们谈了仓库的基本架构,那么我想大家对数据仓库的加工流程也比较好奇,那么别着急,咱们往下看。
(1)文件检查
上文中提到,数据仓库的数据来自于80多个源系统,这么多数据入仓当然不能随心所欲,所谓“无规矩不成方圆”,入仓文件有很多约定和规范,在文件级的检查做了很多工作。
(2)文件加载
文件级校验通过,那么文件就开始加载入库了,首先会进到数据仓库的数据缓存区(SDATA),SDATA中的表结构和源系统的表结构基本是保持一致的。
(3)入仓
数据进入缓存区后,重头戏来到了,源数据表将按照Teradata的FS-LDM模型进行入仓,进入PDATA。
FS-LDM产品中按照主题域组织数据。FS-LDM产品中共有内部机构、当事人、客户资产、产品、地域、渠道、营销活动、协议、财务和事件等十大主题域,产品中的十大主题域完全覆盖了对银行涉及业务范围的描述。
(摘自 ceb_ldm培训教材.doc)
以上,入仓过程完成,后续集市就可以利用PDATA的数据进行加工处理,按照业务需求进行BI展示或者分析决策。
(4)TD与GP的数据交互
目前我行数据仓库是Teradata与Greenplum多元发展,两者之间存在着数据交互过程,并不是一个纯粹的自上而下的架构和逻辑。两者之间的数据交互主要是通过数据导入导出实现,这也带来了一些弊端,异构数据库数据导入和导出的效率还是较慢,任务调度之间也会出现相互等待的现象。
(1)国产数据仓库产品的探索
数据是银行的重要资产,安全可控是银行的必然要求,因此我行数据仓库除了Teradata和Greenplum的使用外,还对国产数据仓库产品进行了相关的尝试和探索。
(2)多元数据平台的展望
MPP数据库在处理结构化数据具有较好的优势性,但是数据的多元化,MPP数据库的不足也逐渐体现出来,我行大数据应用平台应运而生,使用hadoop技术,针对数据多样性,不仅补充了MPP数据仓库的不足,还为我行的数据应用提供了新的发展方向。而我行的数据仓库平台也必然会向数据仓库+大数据应用平台的多元数据平台发展。
总而言之,已经进入“数据时代”的我们,如何利用数据发展自己,是如今所有人都面临的机遇和挑战,大数据平台和大数据相关应用的建设也已经体现出了这一点,而作为目前我行的数据先行者和数据拥有者“数据仓库”也还将在我行的“数据版图”中扮演重要的角色。
以上就是笔者对我行数据仓库的一些简单介绍,欢迎大家指正。
数据仓库还涉及很多方面,包括Automation的调度,数仓的维护事项等等,预知后事如何,请看以后分解。
以上是关于“浅谈”数据仓库的主要内容,如果未能解决你的问题,请参考以下文章