(数据质量管理)

Posted 浊酒南街

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(数据质量管理)相关的知识,希望对你有一定的参考价值。

目录

一、前言

本文是《DAMA数据管理知识体系指南》第13章的读书笔记,主要讲述数据质量相关的内容(之前数据治理-数据质量管理(上)已经较为详细地总结过数据质量相关的内容,可以参考)。数据质量是整个数据管理课题的最核心内容,数据管理的所有活动都是围绕提升组织的数据质量进行的。数据质量包含的范围较广,本章对数据质量进行了系统性的介绍,对大家进一步认识数据质量有较大的参考价值。全文约7000字,如果时间充足建议大家在PC端进行阅读。

二、内容结构

本章节首先对高质量数据需求的必要性进行强调,高质量数据是发挥数据价值的必要前提,然后对数据质量管理的常见驱动因素和原则进行总结;并对数据管理中的重要概念进行解释,数据质量、数据质量核心维度、数据质量管理流程等;然后针对数据质量管理活动的流程进行分步分析,并对其中用到的方法和工具进行总结;最后对整个活动的实施评估和企业组织的数据文化变革进行阐述。整个文章对数据质量管理进行了较为全面的铺成叙述,让我们对数据质量管理的概念和活动流程以及注意事项有较为清晰的认识,其整体内容结构图如下所示:

三、主要内容

1.引言

有效的数据管理涉及一系列复杂的、相互关联的过程,它能够利用他们的数据来实现其战略目标。但实现数据价值的前提是数据本身是可靠的、可信的,换句话说,数据应该是高质量的。
但现实往往是残酷的,在实际生产应用过程中,数据质量往往是低下、不可信的。导致数据质量低下的因素很多,主要包括:组织缺乏对低质量数据影响的理解、缺乏对数据的规划、孤岛式的业务&数据系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
与数据治理和整体数据管理一样,数据质量管理本身并不是一个项目,而是一项持续性的工作,穿插在组织所有的数据活动中。因此,在组织中所有的数据管理活动中,都应该遵循有助于提高数据质量,支持组织使用高质量数据的原则和目标。


1.1业务驱动因素
希望从数据中获取价值的组织认识到,高质量数据比低质量数据更有价值。使用劣质数据充满风险,会损害组织的声誉,导致罚款、收入损失、客户流失和负面媒体曝光等问题。提高数据质量本身并不是目的,它只是组织获取成功的一种手段。值得信赖的数据不仅降低了风险、也降低了成本,提升了效率。

建立正式数据质量管理的业务驱动因素包括:

提高组织数据价值和数据利用的机会
降低低质量数据导致的风险和成本
提高组织效率和生产力
保护和提高组织的声誉

1.2目标和原则
根据数据消费者的需求,通过改变流程和系统以及参与可显著改善数据质量的活动,识别和倡导提高数据质量的机会。数据质量管理专注于以下目标:
根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
定义数据质量控制的标准和规范,并作为整个生命周期的一部分。
定义实施&测量&监控和报告数据质量水平的过程。
数据质量管理应遵循以下的原则:

重要性。数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确的风险水平。
全生命周期。数据质量管理硬覆盖从创建或采购直至处置的数据全生命周期。
预防。数据质量方案重点应放在预防数据错误和降低数据可用性的情形上。
根因修正。提高数据质量不只是纠错,还需要针对其特点优化其流程和系统。
治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
标准驱动。数据生命周期中的所有利益相关方都会对数据质量有要求,尽量以可标准的方式进行表达和定义。
客观测量和透明度。数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论和分享测量过程和测量方法,因为他们是质量的裁决者。
嵌入业务流程。业务流程所有者对通过流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
系统强制执行。系统所有者必须让系统强制执行数据质量要求。

1.3基本概念
数据质量:数据质量既指高质量数据相关特征,也指用户衡量或改进数据质量的过程。如果数据质量满足数据消费者的需求,那就是高质量;反之,就是低质量。因此,数据质量取决于使用数据的场景和数据消费者的需求。数据质量管理的挑战之一是,与数据质量相关的期望并不总是已知的,数据消费者通常不清楚自己对数据质量的期望。
关键数据:大多数组织都有大量的数据,但并非所有的数据都有同等的重要性。数据质量管理的一个原则就是将重点集中在对客户最重要的数据上。关键数据通常包含监管报告、财务报告、商业政策、持续经营、商业战略(尤其是差异化竞争战略)。

数据质量维度:数据质量维度是数据的某个可测量的特征。数据质量维度有很多分类方式,最为常见的核心维度包括数据的完备性、唯一性、及时性、有效性、准确性、一致性,如下图所示。根据组织数据的特点以及当前的核心问题,选择恰当的数据质量维度,用以作为数据质量提升的参考点,有针对性地提升数据质量,让组织可以真正享受到数据质量提升带来的便利。


数据质量与元数据:元数据对于管理数据质量至关重要。数据质量取决于它如何满足数据消费者的需求。元数据定义数据所代表的的内容,拥有一个强大的数据定义流程,有助于组织正式确定和记录用于平衡数据质量的标准和要求。良好的元数据还可以支持改进数据的工作。
数据质量改进生命周期:大多数改进数据质量的方法都是基于物理产品制造过程中质量的改进技术(类比参考)。数据质量改进的常用方法如下图所示,“计划-执行-检查-处理”,实践是检验真理的唯一标准,小范围实验,有效扩展,持续迭代优化(数据质量改进不是一个周期性的项目,而是一项持续性的工程)。
计划阶段:数据质量团队评估已知的问题范围、影响和优先级,并评估对应的问题解决备选方案。
执行阶段:数据质量团队负责努力解决引起问题的根本原因,并对做出持续监控数据的计划。
检查阶段:积极监控按要求测量数据质量,对行动的结果进行评估。
处理阶段:根据上一阶段中指出的不满足数据质量要求的点进行新一轮的评估和处理,重新开始循环。

数据质量业务规则类型:业务规则描述业务应该如何在内部运行,以便成功地与外部世界保持一致。数据质量业务规则描述了组织内有用的数据和可用数据的存在形式。常见的数据质量业务规则类型有:
定义一致性:确认对数据定义的理解相同,并在整个组织过程中得到实现和正确使用。

数值存在和记录完备性:定义数值缺失的情况是否可接受的规则。
格式符合性:按指定模式分配数据元素的值,如电话号码、性别标识等。
值域匹配性:指定数据源数据的赋值必须在某数据域的枚举值内。
范围一致性:按照元素赋值必须在定义的数字、词典或事件范围内。
映射一致性:表示分配的数据元素值,必须按照一致的映射关系确定其含义。
一致性规则:根据这些属性的实际值,在属性之间关系的判定条件。
准确值校验:将数值与记录系统或其他验证来源中的相应值进行对比校验。
及时性校验:表明数据可访问性和可用性预期相关特征的规划。
数据质量的常见原因:数据质量问题在数据证明周期内的任何节点都可能出现。在调查根本原因时,应该寻找潜在的原因,如数据输入、数据处理、系统设计,以及自动化流程中的手动干预问题等。通常数据质量出现问题的原因有如下几种:
缺乏领导力导致的问题:许多人认为数据质量的问题是由数据输入错误引起的,更深的理解后会发现,业务和技术流程中的差距或执行不当导致比错误输入更多的问题。通常包括领导和员工缺乏意识、数据缺乏治理、缺乏领导力和管理能力、难以证明改进的合理性、缺乏合适的价值评估引导。
数据输入过程引起的问题:在数据载入中出现问题,如数据输入接口问题、数据输入方式不合理、字段重载、业务流程变更、输入规范培训未到位等。
数据处理功能引起的问题:数据处理阶段也存在对数据质量有较大的影响的问题,包括数据源引用不当、业务规格更新不及时、数据结构变更未周知等,总结起来为数据处理与业务逻辑协同失调。
系统设计引起的问题:包括业务系统设计和数据系统设计两大方面,业务系统设计未能执行参照完整性、数据约束未强制校验、编码存在原始不一致、参考数据和主数据管理薄弱等问题。
解决问题引起的问题:手动修复数据、或是直接更改数据库中的数据,而不是回滚、重刷,造成数据不一致等问题。
数据质量和数据处理问题:虽然数据质量改进工作的重点是防止错误,但也可以通过某种形式的数据处理来提升数据质量。如:
数据清理:数据清理或者清洗,可以通过数据转化使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受水平。
数据增强:数据增强或丰富是给数据集添加属性以提高其质量和可利用性的过程。可以通过集成组织内部数据,也可以购买外部数据来增强组织数据(如审计数据、时间数据、参考词汇表、语境信息、行业参考数据等)。
数据解析和格式化:数据解析是使用预先确定的规则来解释内容或值的分析过程;数据格式化这是将数据按照固定的格式进行标准化。将这些规格系统落地处理,生成确定的规则引擎等,以固化使用。

2.活动

2.1定义高质量数据
很多人看到质量差的数据都能够辨识出来,但很少有人能够定义出高质量的数据,或者他们用非常不严谨的术语对齐进行定义。
脱离数据使用场景、当前数据环境、数据应用目标谈数据质量是没有太大意义的,需要将数据质量与上述条件结合起来才能做到评价和指导相互协同,需要从不同的角度进行探讨评估:
了解业务战略和目标
与数据利益相关方面谈,识别数据痛点、风险和业务驱动因素。
通过搜集和其他剖析形式进行数据评估
记录业务数据流程的依赖关系
记录业务流程中的技术架构和系统支持。

2.2定义数据质量战略
提高数据质量要有一定的战略,应考虑到需要完成的工作执行的这些工作方式。数据质量优先级必须与业务战略一致。一个数据质量管理框架应包括以下方法:
了解并优先考虑业务需求。
确定满足业务需求的关键数据。
根据业务需求定义业务规则和数据管理标准。
根据逾期评估数据。
分享调查结果,并从利益相关方那里获得反馈。
优先处理和管理问题。
确定并优先考虑改进机会。
管理通过数据质量流程生产的元数据。
将数据质量控制集成到业务和技术流程中。

2.3识别关键数据和业务规则
并非所有的数据都有同等的重要性,数据质量管理工作应首先关注最重要的数据:如果数据价值更改,并将组织及其客户提供更多的价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。
识别能描述或暗示有关数据质量特征的业务规则。大多数业务规则都与如何收集或创建数据相关,但数据质量度量围绕它代表的含义以及数据创建。知道数据的所有使用方法是不可能的,但可以理解创建或收集数据的过程和规则,用以后续的数据应用。

2.4执行初始数据质量评估
一旦确定最关键的业务需求和支持他们的数据,数据质量评估的最重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及将实际数据与汇总和期望进行比较。
初始数据质量评估的目标是了解数据,以便定义可操作性的改进计划。通常最好从聚焦一项较小的工作——一个基本的概念证明——来延时改进过程是如何工作的。

2.5识别改进方向并确定优先排序
在证明改进过程可行之后,下个目标就是策略性地应用它。数据质量优化过程,需要结合数据的影响问题和利益相关方的讨论排定最终优先顺序。

2.6定义数据质量改进目标
数据质量提升可以采取不同的形式,从简单的补救到根本原因的改进,补救和改进计划应考虑可以快速实现的问题和长期的战略性变化。当发现问题的时候,根据以下内容确定改进的投资回报率:
受影响数据的关键性
受影响的数据量
数据的龄期
受问题影响的业务流程数量和类型
受问题影响的消费者、客户、供应商或员工数量
与问题相关的风险
纠正根本原因的成本
潜在的工作成本

2.7开发和部署数据质量操作
为了保证数据质量,应围绕数据质量方案制定一个实施计划,允许团队管理数据质量规则和标准、监控数据和规则的持续一致性、识别和管理数据质量问题,并报告质量水平。
管理数据质量规则:解剖和分析数据的过程将帮助组织发现业务和数据质量规则。随着数据质量实践的成熟,对这些规则的获取应该构造到系统开发和增强过程。数据质量规则和标准是元数据的一种关键形式,为了提高效率,需要将他们作为元数据进行管理。
测量和监控数据质量:业务数据质量管理过程取决于测量和监控数据质量的能力。进行业务数据质量度量的原因主要包括向数据消费者通报质量水平、管理业务或技术流程,改变引入的变更风险。

3.工具

应在企业数据质量项目的规划阶段建立工具架构并选择相应工具。工具可以提供部分规则集的启动工具包,但组织需要在工具中创建适合自己特定语境的规则和动作。

3.1数据剖析工具
数据剖析工具生成高级别的统计信息,分析人员能够识别数据中的模式并对质量特征进行初始评估。剖析工具对于数据发现工作特别重要,通过它能够实现大型数据集的评估。

3.2数据查询工具
数据查询工具不仅是数据质量管理的专用工具,也是整个数据应用的公共工具。

3.3建模和ETL工具
用于数据建模和创建ETL过程的工具对数据质量有直接影响。

3.4数据质量规则模板
规则模板给予分析人员机会捕获客户对数据的期望,还有助于弥合业务团队和技术团队之间的交流鸿沟。

3.5元数据存储库
元数据存储库是元数据管理的工具,也是进行数据质量管理的重要工具。

4.方法

4.1预防措施
创建高质量数据的最佳方式是防止低质量数据进入组织。预防措施可以阻止已知错误的发生,在事后对数据进行检查不能提高其质量。常见的预防方法有:建立数据输入控制、培训数据生产者、定义和执行规则、要求数据提供商提供高质量数据、实时数据治理和管理制度。

4.2纠正措施
问题发生并被检测到之后,实施纠正措施。数据质量问题应系统地、从根本上解决,最大限度降低纠正措施的成本和风险。“就地解决问题”是数据质量管理中的最佳实践,这通常意味着纠正措施应包括防止产生质量问题的原因再次发生。执行数据修正的方法一般有三种:自动修正(需要系统校验和支持)、人工检查修正(自动化工具校验)、人工修正(人工发现,人为修正,最广泛)。

4.3质量检查和审核代码模块
创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到他们,重复执行数据质量检测和审计过程。精心设计的代码块可以防止许多数据质量问题,与此同时,他们确保了流程的一致执行。

4.4有效的数据质量指标
管理数据质量的一个重要组成部分就是开发度量指标,已告知数据消费者对齐数据使用非常重要的质量特征。很多事情都可以度量,但不是所有的事情都值得投入时间和精力。在指定度量标准时,数据质量需要考虑如下指标:可度量性、业务关注度、可接受性、问责\\管理制度、可控性、趋势分析。

4.5统计过程控制
统计过程控制(SPC)是一种通过分析过程输入和输出或步骤变化测量值来管理过程的方法。SPC是一个时序图,用以描述数据质量的控制上下界限,用以对数据质量进行监控和度量。

4.6根本原因分析
导致问题产生的根本原因一旦消失,问题本身也会消失。根本原因是一个理解导致问题发生因素及其作用原理的过程。识别数据质量问题的根本原因是提升数据质量的核心问题。

5.实施指南

5.1就绪评估/风险评估
从数据管理的角度看,数据质量方案是否正式、能否取得支持,取决于组织的成熟程度。组织采用数据质量的实践准备情况,可以通过以下特征进行评估:
管理层承诺数据作为战略资产进行管理
组织对数据质量的当前理解
数据的实际情况
与数据创建、处理或使用相关的风险。
可扩展数据质量监控的文化和技术的就绪程度

5.2组织文化变革
数据质量不是通过一些具和口号就能改进的,而是要通过帮助员工和利益相关方梳理不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进。

6.数据质量与数据治理

6.1数据质量制度
数据质量工作应有匹配数据治理制度的支持。如定期的数据质量审计,并实施相关标准和最佳实践。各项制度应包括:制度的目的、范围和适用性;术语定义;数据质量团队的职责;其他利益相关方的责任;报告;策略的实施和跟进。

6.2度量指标
数据质量团队大部分工作将集中于质量的度量和报告,数据质量的高阶指标包括:
投资回报率
质量水平
数据质量趋势
数据问题管理指标(按数据质量指标进行分类,根据各部门数据特性确定)
服务水平一致性
数据质量计划示意图

四、思考与总结

数据意识最重要:数据意识最重要,特别是老板的数据意识,这是解决数据质量问题最有利的保障,是推广规范的前提。
组织比制度重要:建立完善的数据标准管理组织是做好数据标准化工作的必要条件,只有建好了数据标准的组织,数据标准化的过程才能获得有效支撑。
未来比现在重要:在建立数据标准体系过程中,不能过于考虑现状,只考虑解决眼前问题,而忽视未来的业务发展。
人比系统重要:数据标准化的过程也不能过于严苛,不能死板的要求业务系统必须进行标准化改造,这样往往会导致项目失败。而是应该多方人员的诉求,综合考虑数据标准化的推进速度。

转载链接:https://mp.weixin.qq.com/s/81XSuDCjL2nDroBJyEcvrQ

以上是关于(数据质量管理)的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Python 中测量最佳拟合线的质量? [复制]

博智慧达360度激光轮廓尺寸测量传感器 在线式实时非接触测量系统

在 Qt/C++ 应用程序中管理测量单位转换的最佳实践

“挂图作战”——网络测量的具体用途

管理研究的测量方法和技术的读书笔记

你如何测量地图移动了多远?