(元数据管理)
Posted 浊酒南街
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(元数据管理)相关的知识,希望对你有一定的参考价值。
目录
一、前言
本文是《DAMA数据管理知识体系指南》第12章的读书笔记,主要讲述元数据管理的相关内容。该章是全书的最为重要的章节之一,甚至可以说是整个数据管理的基础(按照CDMP考试认证的占比高达11%)。由于本章内容的重要性,因此对本章的总结会较为详细,全文约8000字,如果时间充足建议大家在PC端进行阅读。
二、内容结构
本章节内容首先从元数据管理的作用、目的、业务驱动因素出发,讲解元数据管理的必要性和所需遵循的原则;并对元数据相关概念、元数据分类、来源、架构等进行一一讲解,让读者对元数据的活动事项有基本的了解;然后从元数据管理的活动实践出发,对各个相关步骤展开阐述;并对整个过程所需的工具、所用到的方法进行总结,最后对整个管理活动的实施指南进行总结,提出针对元数据治理的方法和评价度量指标。其整体内容结构图如下所示:
三、主要内容
1.引言
元数据最常见的定义是“关于数据的数据”,言简意赅,但却让大家难以深入理解元数据的内容。其实,可以归为元数据的信息范围非常广泛,不仅包括技术和业务流程、数据规整和约束,还包括逻辑数据结构与物理数据结构。元数据描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、代码软件、技术设施等),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统、流程,同时帮助用户评估数据质量,有助于处理、维护、集成、保护和治理其他数据,对数据库和其他应用程序的管理来说是不可或缺的。
元数据之于企业数据,犹如检索目录之于图书馆书籍。可靠的元数据可以帮组织知道它有什么数据、数据表示什么、数据从哪里来、数据在系统中的位置、数据使用权限等,便于我们更好地进行数据资产的管理。实际上,可以说没有元数据就根本无法进行有效的数据管理。
与其他数据一样,元数据也需要被管理。随着组织收集和存储的数据不断增长,元数据的管理变得愈加重要,只有先将元数据有效管理,才能依靠元数据去管理其他数据。
1.1业务驱动因素
数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
通过提供上下文语境和执行数据质量检查提高数据可信度
通过扩展用途增加战略信息价值
通过识别冗余数据和流程提高运营效率
防止使用过时或不正确的数据
减少数据的研究时间
改善数据使用者和IT专业人员之间的沟通
创建准确的影响分析,从而降低项目失败的风险
通过缩短系统开发生命周期时间缩短产品上市时间
通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
满足监管合规
1.2目标和原则
元数据管理目标包括:
记录和管理数据相关的业务的知识体系,确保理解和使用数据内容的一致性
收集整合不同来源的元数据,确保了解来自组织不同部门数据的相似与差异
确保元数据的质量、一致性、及时性和安全
提供标准途径,使元数据使用者可访问元数据
推广或强制使用技术元数据数据标准,以实现数据交换的标准化流程
元数据管理应遵循指导原则:
组织承诺。确保组织对元数据的管理,将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。
企业视角。从企业视角确保未来的可扩展性,但要通过迭代和增量交付来实现,以带来价值。
潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用单元数据,同时也为业务提供知识辅助
质量。认识到元数据通过现有流程生成的,所以流程所有者应对元数据及的质量负责
审计。制定、实施和审核元数据标准,以简化元数据的集成和使用
改进。创建反馈机制,以便数据使用者可将错误或过时的元数据反馈给元数据管理团队
1.3基本概念
元数据与数据:元数据也是一种数据,与总数据的区别主要在于描述对象,普通数据是描述某业务实体与相关过程的数据,元数据是数据的一种,其描述对象是数据本身的特性的过程。
元数据类型:元数据通常分为三种类型、分别是业务元数据、技术元数据和操作元数据。最好是根据数据的来源而不是这些数据的使用方式来考虑这些数据的类别。
业务元数据:主要关注数据的内容和条件,另外包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征。包括数据集、表、字段定义、业务规则、数据模型、更新计划等。
技术元数据:提供有关数据的技术细节、存储的系统以及在系统内部和系统之间数据流转的过程的信息。包括数据库、表、字段名称、属性、访问权限对象、CURD和ETL记录等。
操作元数据:描述处理和访问数据的细节问题。包括数据处理结果、数据服务水平、数据操作日志等。
非结构化数据的元数据:从本质上讲,所有的数据都有一定的结构的,但并非所有的数据都以行、列的形式存储。非结构化数据的元数据主要包括,描述元数据,如目录信息和同义关键字;结构元数据,如标签、字段结构、特定格式;管理元数据,如来源、更新计划、访问权限和导航信息;书目元数据,如图书馆目录条目;记录元数据,如保留策略;保存元数据,如存储、归档条件和保存规则。
元数据来源:从元数据的类型应该能够看清楚元数据的来源各异,如果来自各应用和数据系统的元数据如果处理得当,则可以较为容易地收集和整合他们。
应用程序中元数据存储库:元数据存储库指元数据的物理表,这些表通常内置在建模工具、BI工具和其他应用程序中。
业务术语表:业务术语表作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。
商务智能工具:商务智能工具生成与商务智能设计相关的各类元数据,包括概述信息、类、对象、衍生信息和计算的项、过滤器、报表、报表字段、报表展示、报表用户、报表发布频率和报表发布渠道。
配置管理工具:配置管理工具或数据库提供了管理和维护与IT资产、它们之间关系以及资产的合同细节相关的元数据功能。
数据字典:数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。数据字典可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性,还应包含表或文件定义。
数据集成工具:数据集成工具提供了API,允许将元数据存储库提取血缘关系信息和临时文件元数据。还提供有关各种数据集成作业执行的元数据,包括上次上工运行、持续时间和作业状态。
数据库管理和系统目录: 数据库目录是元数据的重要来源,它们描述了数据库内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。
数据映射管理工具:映射管理工具用于项目的分析和设计阶段,它将需要转换为映射规范,然后从数据集成工具直接使用或由开发人员用来生成数据集成代码。
数据质量工具:数据质量工具通过验证规则来评估数据质量,其中的大多数工具提供了与其他元数据存储库交换质量分数和质量概况的功能,使元数据存储库能将质量分数附加到相关物理资产上。
字典和目录:数据字典和术语表包含有关术语、表和字段的详细信息,但字典或目录包含有关组织内数据的系统、源和位置的信息。
消息实践工具:事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述此移动的元数据。
建模工具和存储库:数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型。这些工具生成与应用程序或系统模型设计相关的元数据,如主题域、逻辑实体、逻辑属性、实体和属性关系、父类型和子类型、表、字段、索引、主键和外键,完整性约束以及模型中其他类型尚需经。元数据存储库可提取由这些工具创建的模型,并将导入的元数据整合到存储库中。
参考数据库:参考数据记录各种类型的枚举数据的业务价值和描述,在系统中的上下文中使用。用于管理参考数据工具,还能管理相同或不同业务类型内不同编码值之间的关系。
元数据架构的类型:与其他数据一样,元数据也是有生命周期的。从概念上讲,所有的元数据管理解决方案都包含与元数据生命周期相对应的架构层次,如集中式元数据架构、分布式元数据架构、混合式元数据架构。
集中式元数据架构:集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。
分布式元数据架构:一个完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库;
混合式元数据架构:混合架构结合了集中式和分布式架构特性,元数据仍然直接从源系统移动到集中式存储库。该架构得益于从源头近乎实时地检索元数据和扩充元数据,可在需要时有效地满足用户需求。混合方法降低了对专有系统级进行手动干预和自定义编码访问功能的工作量。
双向元数据架构: 另一种高级架构方法是双向元数据架构,它允许元数据在架构的任何部分中进行更改,然后将变更从存储库同步到其原始源以实现反馈。该设计强制元数据存储库包含最新版本的元数据源,并强调对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理结构,将存储库的内容写到元数据源。
2.活动
2.1 定义元数据战略
元数据战略描述组织如何管理其自身元数据,以及原数据从当前状态到未来状态的实施线路。元数据战略应该为开发团队提供一个框架,以提升元数据管理能力。元数据战略包括定义组织元数据架构蓝图与战略目标匹配的实施步骤。主要包括:
启动元数据战略计划:启动和计划的目的是保证元数据战略团队可定义出短期和长期目标。计划包括起草与整体治理措施一致的章程、范围和具体目标,然后开展沟通计划以落实治理措施。
组织关键利益相关方访谈:通过对业务人员和技术人员的访谈,可得到元数据战略的基础知识
评估现有的元数据资源架构和信息架构:评估确定解决元数据和系统问题的难度、在访谈和文档复查中识别这些问题。
开发未来的元数据架构:优化和确认未来愿景,开发可满足管理现阶段元数据环境长期目标的元数据架构
制定分阶段的实施计划:从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可从当前状态迈向未来受控的元数据环境的实施方法。
2.2理解元数据需求
元数据需求的具体内容是:需要哪些原数据和哪些详细级别。元数据内容广泛,业务和技术数据使用者都可以提出元数据需求。元数据综合解决方案(元数据管理系统)由以下功能需求点组成:
更新频次,元数据属性和属性集更新频率
同步情况,数据源头变化后的更新时间
历史信息,是否需要保留元数据的历史版本
访问全新,通过特定的用户界面功能,谁可以访问元数据,如何访问
存储结构,元数据如何通过建模来存储
集成要求,元数据从不同数据源的整合程度,整合的规则
运维要求,更新元数据的处理过程和规则
管理要求,管理元数据的角色和职责
质量要求,元数据数据需求
安全要求,一些元数据不应公开,因为会泄漏某些高度保密数据的信息
2.3定义元数据架构
元数据管理系统必须具有从不同数据源采集元数据的能力,设计架构时应确保可以扫描不同源数据数据源和定期更新元数据存储库。元数据架构应为用户访问元数据存储库提供统一入口,该入口必须向用户透明地提供所有相关元数据资源,这意味着用户可在不关注数据源的差异的情况下访问元数据。
创建元数据模型:创建一个元数据存储库的数据模型(即元模型),是定义元数据战略和理解业务需求后的第一个设计步骤。可根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。
应用元数据标准:元数据解决方案应遵循在元数据战略中已定义的对内核对外的标准,组织对内元数据标准包括命名规则、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括数据交换格式和应程序接口设计。
管理元数据存储:实施控制活动以管理元数据环境。这些活动本质是可管理的、可监控的、可报告的、可预警的、有作业日志的,同时可解决各种已实施的元数据存储库环境的各种问题。
2.4创建和维护元数据
元数据是通过一系列过程创建的,并存储在组织的不同地方。元数据的创建和维护必须要落实好相关的责任、标准、改进的规范。
责任:认识到元数据通常通过现有流程产生,因此流程的执行者对元数据的质量负责。
标准:制定、执行和审计元数据标准,简化集成过程,并且使用。
改进:建立反馈机制保障用户可将不准确或已过时的元数据通知元数据管理者。
整合元数据:集成过程中从整个企业范围内收集和整合元数据,包括从企业外部获取的数据中的元数据。元数据存储库硬蛋将提取的技术元数据与相关的业务、流程和管理元数据集成在一起,可使用适配器、扫描仪、网桥应用程序或直接访问源数据存储中的方式来提取元数据。
分发和传递元数据:元数据可传递给数据消费者和需要处理元数据的应用或工具。传递机制包括:
元数据内部网站,提供浏览、搜索、查询、报告和分析功能
报告、术语表和其他文档
数据仓库、数据集市和BI工具
建模和软件开发工具
消息传送和事物
Web服务和应用程序接口(API)
外部组织接口方案(如供应链解决方案)
3.工具
管理元数据的主要工具是元数据存储库(元数据是数据管理的主要工具,元数据存储库是元数据管理的主要工具)。元数据存储库包括整合层和手工更新的接口。处理和是永远数据的工具集成到元数据存储库作为原数据的来源。
4.方法
4.1数据血缘和影响分析
发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息,数据从哪里来、经过什么地方、应用系统在哪里。许多元数据工具中存储着某个环境中数据线装的信息,并提供查看跨系统应用程序接口的血缘功能。记录血缘关系有助于业务和技术人员使用数据和排查数据问题,如缺失数据血缘,用户将需要花费大量时间来检查异常现象、潜在的变更影响和其他未知结果。
随着系统中元数据大量增加,数据血缘关系的发现变得复杂且难以管理。要想成功发现数据血缘关系,需要兼顾业务焦点和技术焦点。
业务焦点:根据业务优先级寻找数据元的血缘关系。从目标位置回溯到具体数据起源的源系统。通过扫描那些数据迁移、传送或更新的数据元,确保业务数据使用者理解特定数据元在系统间迁移时发生了什么。
技术焦点:从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。许多数据整合工具提供数据血缘分析功能,该功能不仅包括开发大量代码,也设计了数据模型和物理数据库。
4.2应用大数据采集的元数据
元数据标签应在采集时应用于数据,然后元数据可用来识别可访问的数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析,数据剖析可识别出数据域、数据关系和数据质量问题,并打上标签。采集数据时,识别到敏感或隐私数据时应添加元数据标签。
5.实施指南
使用渐进的步骤建设实施受控的元数据管理环境,可以减少组织的风险,且便于用户接受。存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。应基于易理解的元数据模型与企业领域专家共同进行设计。
5.1就绪评估/风险评估
拥有坚定的元数据战略,有助于所有人进行更高效的决策。首要的是,所有人应意识到不管理元数据的风险(数据的重要性=>数据管理的重要性=>元数据的重要性,企业文化&企业驱动力)。评估缺失高质量元数据可能带来的影响如下:
因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断。
暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致法律纠纷。
如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。
5.2组织和文化变革
与其他数据管理工作一样,元数据计划经常遇到文化阻力。元数据管理在许多组织中是一项低优先级的工作(数据管理往往都是一项低优先级的工作)。一组基本的元数据需要组织中各团队的协调和承诺。企业数据治理战略的实现需要高级管理层的支持和参与,要求业务人员和技术人员能够以跨职能的方式紧密合作。
6.元数据治理
组织应确定它们管理元数据生命周期的具体需求,并开展元数据治理工作以满足这些需求。建立正式的角色和职责并分配专用资源,特别是在大型或业务关键领域中。元数据治理过程本身依赖可靠的元数据。
6.1过程控制
数据管理团队应负责定义标准和管理元数据的额状态变化,同时可负责组织内的质量提升活动、培训计划或事实培训活动。
6.2元数据解决方案的文档
元数据的主目录包括当前作用域中的源和目标。元数据资源面向技术和业务用户,可以发布到用户社区,并可作为“元数据在哪里”的指引,告知用于能够满足他们以下需求:
元数据管理实施状态
源和目标元数据存储
元数据更新的调度计划信息
留存和保持的版本
内容
质量声明或警告
记录系统和其他数据源状态
相关的工具、架构和人员
敏感信息和数据源的移除或敏感策略
6.3元数据标准和指南
在计划周期的早期采用基于行业的、行业特有的元数据标准,并使用这些标准评估元数据管理技术(他山之石可以攻玉)。指导方针包括模板、相关示例、有关预期输入和更新的培训,以及“不适用术语定义术语”等规则和完整性声明。针对不同类型的元数据开发不同的模板,部分由所选的元数据解决方案驱动。持续监测指导方针的有效性和必要更新是治理责任。
6.4度量指标
要想测量元数据的影响,就需验证缺少元数据导致的影响。元数据管理实施的有效性可根据元数据本身的完整性、与其关联的日常管理操作以及元数据的使用情况来度量。元数据管理环境的建议指标包括:
元数据存储库完整性。将企业元数据的理想覆盖率与实际覆盖率进行比较。
元数据管理成熟度。根据能力成熟度模型的成熟度评估方法,开发用于判断企业元数据成熟度的指标。
专职人员配备。通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
原始源呼救使用情况。可通过存储库的访问法次数衡量用户对元数据存储库的使用情况和接受程度。
业务术语活动。使用、更新、定义解析、覆盖范围。
主数据服务数据遵从性。显示SOA解决方案中数据的重用情况。
元数据存储库可用性。正常运行时间、处理时间。
四、思考与总结
元数据之于数据犹如目录之于书本,元数据本身是数据的一种,是描述数据的数据。通过元数据,我们可以知道组织的数据信息情况(有什么数据、数据从哪里来、数据去了哪里、数据存储在什么地方)。因此,元数据是数据管理的基础,如果要想进行良好的数据管理,高质量的元数据是必不可少的。
元数据本身也是需要进行管理的,由于元数据的特殊性,和应用场景的局限性,往往难以受到广泛的业务重视,所以不仅需要元数据管理者具备高度的专业能力和深度的投入,也需要企业高层对实践活动的支持。元数据范围较广,其产生来源存在很大的差异、数据质量往往也较低、这给元数据后续的分析和使用会带来较大的困难。在实际的生产过程中,绝大多数的企业都是在数据集成的时候开始规整元数据,主要含括数据的来源系统、业务含义、血缘关系、调度服务性能等;虽然这种后置规范行为可以解决大部分问题,但却对元数据的规范和整个组织的元数据管理带来了较大的困难,没有从源头上进行规制限制,这往往也是组织需要不断重复地进行数据治理的原因。
元数据的管理不是一朝一夕能完成的,整个过程涉及到现状评估、方案制定、系统建设和具体实施、以及不断迭代。且整个过程是需要在不影响业务正常运转的前提下进行的,所以往往需要和业务进行协同调整和改进,因此战线与周期拉的是比较长的。温和地制定迭代策略、与组织业务相适应才能真正有效提升业务效率而不被反感。
转载链接:https://mp.weixin.qq.com/s/fz5mdzk5j__hosZlVPJ10g
以上是关于(元数据管理)的主要内容,如果未能解决你的问题,请参考以下文章