探索中小银行数据仓库建设之路

Posted 安华信达

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了探索中小银行数据仓库建设之路相关的知识,希望对你有一定的参考价值。

近年来,农村金融机构运用现代信息技术创新业务模式、服务流程、信用管理,通过直销银行、社区银行、移动银行等新模式更加贴近公众,服务民生,加大了基础金融服务覆盖面,并积极运用大数据客户画像、小微信用模型、线上线下联动等方式,提升银行金融的便利性,为更好地服务实体经济、支持小微信贷、支持“三农”、发展普惠金融提供了持续动力。

  20167月,福建省农村信用社联合社(以下简称“福建联社”)新一代数据仓库平台上线,至今,该平台已平稳运行1年多。该联社成功实现了在全国农信系统中首次引入国产分布式并行数据库Gbase进行数据仓库建设,采用分布式集群、列式存储、并行处理等新技术,实现数据仓库基础处理平台的升级,搭建基于“新型MPP+传统ORACLE协同作业”混合架构的新型数据仓库,对中小银行数据仓库建设模式进行了有益探索。

  据了解,福建联社目前由47家农信社,20家农商银行组成。近年来,该联社各项业务快速发展,截止2017年末,全省农信系统资产总额达8067亿元,各项存款余额达5892亿元,各项贷款达3450亿元,其中,存款增量连续5年位居全省银行业第一,存款市场份额增幅自2011年起连续4年位居全省银行业第一,全省56个县、市农信社、农商银行的存款市场份额均位居第一。

  “伴随着业务的快速发展,福建联社的数据种类日益丰富、数据规模不断扩大,传统数据仓库架构面临挑战:2010年上线的基于ORACLE搭建的数据仓库表现出性能瓶颈,对于大数据量任务的加工耗时较长、硬件采购及软件维护成本高昂,无法及时有效满足和支撑下游应用系统的数据分析要求”。福建联社科技部项目负责人曾代才在接受我们采访时表示。

  为了能够提供更全面、更深入、更及时的数据服务,实现数据加工处理及管理分析应用的高可扩展性、低投入性,并逐步满足监管机构对于信息系统软件自主可控要求,福建联社引入国产MPP架构的(大规模并行处理)数据库Gbase

  “项目建设之初,我们历史积累的数据容量已经达到50TB,一方面传统的ORACLE共享存储数据库在扩展性方面的瓶颈逐渐显露;另一方面福建联社计划探索并实践深度数据处理分析及大数据分析应用,预计数据量将达到上百TB甚至PB级别。为此考虑引入MPP数据库,希望在有效满足数据仓库在未来510年的数据存储需求同时,可充分实现数据仓库高效处理海量数据加工分析的目标。”曾代才说。

  一、引入MPP,超越传统的IT和业务关系

  福建联社于2015年引入南大通用MPP架构的数据库GBASE,采用SHARE-NOTHING(无共享)的分布式并行处理扁平架构。“这种架构的优势在于数据库集群中的每个数据节点独享其硬件资源,各自处理分布在该节点上的数据,达到任务均摊并行处理的目的。数据库集群具有高性能、高可用、高可扩展性,可为超大规模数据(TB-PB)管理提供高性价比的通用数据计算平台,广泛用于支撑各类数据仓库、BI系统及决策支持平台等。”曾代才表示。

  在实施过程中,无论是硬件部署还是软件开发,福建联社数据仓库平台均结合了传统IT建设思路,采用了面向大数据和互联网金融的开放技术。

  一是低硬件成本及高可扩展性。

  基于x86的国产开放式PC SERVER,替代昂贵的小型机,实现成本低廉、运维简单,支持集群的在线扩容与所容。

  二是列式存储与并行计算。

  数据仓库基于列式存储的并行分布处理技术,采用多活管理节点、运算节点的两级部署结构,避免单点性能瓶颈及单点故障。支持最多扩展至300个节点,单节点可支持100TB裸数据的数据量。集群中节点无共享,支持最大10PB数据的存储及计算。

  三是高效压缩存储。

  数据仓库采用HASHRANDOM分布策略进行数据分布式存储,同时采用先进的压缩算法,减少存储数据所需空间120 倍,并相应地提高I/O 性能,支持实例级、库级、表级三级压缩。数据仓库40TB数据实现压缩比1:4

  四是智能索引。

  采用粗粒度智能索引技术后,数据仓库索引建立膨胀率不超过百分之一,较传统ORACLE索引大幅节省索引空间。智能索引包含基于列的统计信息,在数据检索定位时可被直接使用,并可有效过滤数据,大幅降低数据库磁盘I/O

  五是冗余机制保证高可用。

  数据仓库采用冗余机制来保证集群的高可用特性,互备的分片数据间可实现自动同步;数据通过副本提供冗余保护,自动实现故障探测和管理,且支持故障的自动恢复,自动同步元数据和业务数据。集群采用主备集群高可用模式,数据首次全量同步后,每次操作自动增量同步,保障集群及数据的高可用性,且支持主备同步回滚机制、主备同步错误恢复机制,保障主备数据的一致性和完整性。

  六是安全性。

  数据仓库实现完善的用户账号控制策略,提高数据库集群的安全性。通过详尽的审计日志输出功能,记录数据库中与数据库操作相关的所有日志,也可以通过图形化的监视工具实现审计管理,支持透明的数据加密、数据存储加密、数据库密码加密、数据加密压缩、相关加密函数。

  曾代才介绍:“目前,福建联社已将20TB数据以及相应的组件、职能迁移至MPP数据库架构。MPP数据库容量大、处理效率高、架构横向扩展能力强等优点,有效满足了福建联社数据仓库高效数据加工处理、多并发查询等服务需求。”

  二、混合架构新型数据仓库成功实施的关键环节

  与大中型银行相比,农信机构具有法人机构多、业务类型复杂、技术实力不足等特点。此前Gbase数据库在银行业内只有农总行一家的实施先例,福建联社勇于挑战新技术,在数据仓库建设中独树一帜,有何有益经验可以分享?

  曾代才表示,项目成功实施得益于对两个关键问题的正确把控。

  一是对新型数据库MPP的定位。

  根据数据仓库的数据架构、逻辑架构及数据链路中各节点的处理特点,新型数据库MPP在整个数据仓库中定位为主要承载DW角色,负责数据加工处理,原有的ODS依旧采用传统的ORACLE数据库,减少ORACLE数据库的数据压力,即ODS承担对外数据接入任务,通过数据监测组件及数据加载组件,将数据加载到MPP数据库中,通过MPP数据库的高效加工能力,为下游系统提供高效、标准的数据服务。

  二是中间业务公共发布区建设。

  在沿用模型规范基础上,优化模型体系,依据中间业务“数据散”、“类型多”、“业务相似”等特性,充分提炼中间业务公共特性,将源系统数据加载至标准数据区后,进行数据整合至明细数据区,再汇总数据进入汇总数据区。充分考虑中间业务的数据特性,将中间业务系统进行分类整合,并保留历史数据,满足下游系统对中间业务数据表使用的便捷性。汇总数据区分别通过账户、柜员、客户、机构,渠道等多种主体方式汇总,满足不同粒度的数据使用需求。整合后的明细数据区采用统一的数据标准、模型规范、设计流程,通过适度冗余的降范式化处理,保证模型的易用性。整体模型采用扁平化设计,控制分层数目,支持模型快进快出,易于扩展且维护成本低。

  数据仓库中间业务发布区的建设,改变了下游系统统计中间业务需关联多张表,标准不一致,格式不统一,容易造成数据统计错误的状况。通过整合的数据模型,下游系统可根据实际统计的粒度需求,直接使用整合后的明细数据区或汇总数据区,极大程度地方便下游系统对中间业务的统计需求。

  “引入MPP数据库后的数据仓库,数据加工能力提升300%;数据存储能力提高百倍,可处理PB级别的数据;数据处理效率和数据服务时效性大幅提升,对海量数据分析、即席查询等场景的服务支持能力增强。实际投产情况显示,MPP数据库更擅长数据加工及数据查询,比ORACLE数据库更适合数据仓库的应用场景。

  在同等需求的情况下,MPP数据库数据加工效率提升5-10倍,数据仓库从ORACLE数据库迁移至MPP数据库后,整体跑批时间缩短一半及以上。”谈到MPP数据仓库建设成效,曾代才如数家珍。采用MPP分布式并行数据库进行数据仓库建设使得福建联社数据技术能力得到跃升,数据服务水平迈上新台阶,目前利用Gbase搭建历史数据查询平台,纳入核心系统、渠道系统等签约以及交易流水的历史数据,实现了10亿级数据查询的秒级响应。

  当前,数据已成为金融企业核心竞争力的重要组成部分,福建联社混合架构数据仓库的成功实施探索中小金融机构数据能力构建的新路径,对中小金融机构数据仓库建设模式提供了有益借鉴。


以上是关于探索中小银行数据仓库建设之路的主要内容,如果未能解决你的问题,请参考以下文章

恒丰银行:基于大数据技术的数据仓库应用建设

大型商业银行基于Hadoop分布式数据仓库建设初探

陈道斌工行管理信息部副总:工行数据仓库建设与大数据应用简介

美团 OneData 建设探索之路:SaaS收银运营数仓建设

携程机票数据仓库建设之路

马蜂窝数据仓库与数据中台