数据阳光原创:浅谈数据仓库中的元数据管理

Posted 数据阳光

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据阳光原创:浅谈数据仓库中的元数据管理相关的知识,希望对你有一定的参考价值。

  

伴随着保险行业的快速发展和企业经营规模的不断扩大,各个业务系统积累的数据量越来越大,结合业务场景从海量数据中挖掘出更多的业务价值成为数据战略的重要目标,而元数据管理是支撑一切数据分析、数据挖掘的基础,是保证数据质量的关键,也是企业数据治理中的关键环节。


在数据仓库构建的整个过程中,如数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等,均需要相应的元数据的有效支撑。


一、元数据的定义


元数据是用来描述数据的数据,存储着关于数据的信息,为人们更方便地检索信息提供了帮助。例如:核心系统的所有表的表结构就描述了核心系统的所有真正的数据的含义,这些表结构就是关于数据的数据,也就是元数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的来源、取值范围、数据间的关系、业务规则等。


二、元数据管理


在设计元数据管理平台时,需要考虑元数据管理平台使用中的关键环节,包括元模型设计、元数据采集、元数据存储、元数据管理和应用等。


1、元模型设计

如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础。


元模型设计需要尽可能使用通用的模型构建,首先要获取到系统中所有元数据,将这些元数据进行合理规划,进一步抽象成元模型,下一步,就可以按照设计好的元模型来采集元数据信息。


2、元数据采集


元数据的采集包括两部分内容:技术元数据的采集与业务元数据的采集。


技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,常见的技术元数据包括:数据的表结构Schema信息、数据的空间存储,读写记录,权限归属和其它各类统计信息、数据的血缘关系信息。元模型设计完成后,可以通过元数据管理工具对技术元数据进行自动采集,例如:Pentaho的开源ETL产品Kettle和DataStage等。


业务元数据从业务角度描述了数据仓库中的数据,它提供了介于用户和数据仓库之间的语义层,可以实现业务模型与数据模型之间的映射,帮助用户理解数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。由于数据仓库中数据来源广泛,采集业务元数据较为复杂,需要对业务系统进行深入理解,梳理出各系统的业务范围、业务流程、业务定义口径、业务取数逻辑规则等,并添加到元数据管理系统中。


3、元数据的存储


元数据通常集中的存储在专用的数据库中,需要借助专用工具来实现数据库的对接,这类工具被称为元数据知识库工具,这些工具包括:Pentaho的Metadata、微软的Repository、MetaStage和Sybase的WCC等。


4、元数据管理工具


元数据存储到专用数据库后,需要借助管理工具对元数据进行浏览、展示和管理,这些工具包括:Meta Center、Meta Matrix、Meta Integration等。


三、元数据的应用


元数据管理被普遍应用到血缘分析、影响分析、元数据对比分析、指标一致性分析、数据生命周期管理、辅助应用优化等各个方面,下面就其中三个方面进行展开介绍:


1、血缘分析


数据的血缘关系,就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。在数据仓库中,数据经由业务系统->ODS->数据集市->数据应用(报表)进行抽取、加工、转换,数据处理加工的逻辑比较复杂,很容易会出现报表指标不符合业务逻辑的情况,出现问题也很难迅速解决。


通过使用元数据系统的数据流向分析,可以根据血缘关系往上游排查,看看到底在哪个环节出了问题,可以快速定位特定的表和某些字段,然后做详细的逻辑分析,大大简化了分析环节,提升了解决问题的效率。


2、影响分析


数据仓库上下游系统较多,源系统变化后,数据仓库到底需要修改哪些数据表、哪些ETL程序,需要对数据表及程序进行一一排查,排查工作不仅耗时耗力,还容易产生遗漏,造成指标数据的不一致。通过元数数据管理,可以根据影响分析往下游排查,快速确定源系统变化对数据仓库的影响范围。


3、元数据对比分析


在数据仓库的建设过程中,至少存在开发环境、测试环境、生产环境等三个环境,由于开发和版本发布过程中的bug,不同环境之间会存在不一致的问题。通过元数据管理,可以自动采集各环境的数据结构,并进行差异性比对,生成数据统计结果辅助数据运维,保证各类环境的一致性。

 

注:数据阳光原创,转载请注明出处


【数据阳光】原创:浅谈数据仓库中的元数据管理数据阳光|改变未来

微信ID:Data_Sunshine

长按二维码关注数据阳光

以上是关于数据阳光原创:浅谈数据仓库中的元数据管理的主要内容,如果未能解决你的问题,请参考以下文章

浅谈Hive

数据仓库的元数据管理

数据必备知识:数据仓库之数据存储

ETCD中K8S的元数据

Spark学习之路 (二十)SparkSQL的元数据[转]

Spark学习之路 (二十)SparkSQL的元数据