MDM数据质量应用说明
Posted 数通畅联
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MDM数据质量应用说明相关的知识,希望对你有一定的参考价值。
科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,因此企业所使用的应用系统也就越来越多,企业在业务发展过程中沉淀了大量的数据,但是这些数据没有为企业带来直观的价值,没有形成企业的数据资产,所以越来越多的企业进入到了数据治理阶段,对于主数据治理的需求越来越明确。
MDM基础数据管理平台是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行已系列的管理和维护、分发把治理后主数据分发给各个业务系统包括源头。而本篇文档将介绍对主数据完整生命周期中涉及到的一些功能模块的优化,确保产品在现有的基础上更加完善,可以满足用户的需求。
1整体介绍
主数据治理方案可以将企业的组织、人员、客户、供应商等高度共享的数据进行统一管理,对需要的业务系统进行同步分发,使数据易采集、易理解、易分析,提高部门与部门之间的沟通效率。
1.1产品说明
MDM基础数据管理系统是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行一系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头。
通过以上各个过程的相互配合去从根本上解决企业各个业务系统之间数据不能共享,数据重复、错误等问题。使得企业在数据方面更完善,业务进行更顺畅。
1.2产品方案
1.应用集成方案 ESB + MDM
2.统一身份方案 IDM + ESB
3.基础数据方案 MDM + ESB
4.数仓建设方案 DAP + ESB
5.集成底座方案 IDM + MDM + ESB (iPaaS方案)
6.数据中台方案 MDM + ESB + DAP (dPaaS方案)
7.应用中心方案 MDM + ESB + Portal (aPaaS方案)
8.全域集成方案 ESB + MDM + DAP + Portal + IDM (ePaaS方案)
1.3质量管理
MDM主数据管理平台对于数据质量的管理有两种主要途径:数据巡检和数据清洗。两者的区别在于数据巡检是针对已经存在于MDM中的数据,筛选出相似数据,相似度和相似字段可以在功能建模中进行配置;而数据清洗是在数据进入到MDM之前对数据进行校验,包括重复校验以及基于各种校验规则对数据进行清洗。
2数据质量
数据质量,是指在业务环境下数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量的需求不尽相同,有些人主要关注数据的准确性和一致性,另外一些人则关注数据的实时性和相关性。因此,只要数据能满足使用目的,就可以说数据质量符合要求。
2.1质量说明
数据质量的定义可能要从多个维度出发去衡量。如果从用户角度考虑,能满足用户特定需求所需的程度;如果从数据本身出发去考虑,那就需要查看数据的各个参数部分去衡量优劣势;如果从数据过程来定义数据质量,则需要看数据能否被正确使用、存储以及传输来定义数据质量。
2.2质量评估
数据质量是保证数据应用的基础,它的评估标准主要包括五个方面:完整性,一致性、准确性、唯一性、及时性。数据是否达到预期制定的需求,就可以通过这五个方面来判断。
1.完整性指的是数据信息是否存在缺失,数据缺失可能是整条记录的缺失,也可能是一条数据记录中某些字段值缺失。信息缺失的数据的借鉴价值就会大大降低。所以数据完整性也是数据质量评估最基础的一项标准。
2.准确性指的是数据记录的信息是否存在异常或者错误。和一致性不一样的是,存在准确性问题的数据不仅仅是在规则上不准确,也有可能是其他方面,比较常见的像数据乱码。其次,异常的大或者小也是不准确的体现。
3.一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据的一致性主要体现在数据记录的规范和数据是否符合逻辑。数据规范指的是,一项数据存在固定的格式,例如手机号一定是一串十一位的数字;逻辑指的是,某些数据之间存在着固定的逻辑关系,例如数据相似度一定是介于0到1之前的数值。
4.唯一性是指数据相互之间是否重复。当然这个所谓的重复并不一定就是百分百的重复,也有可能是在某些字段上的重复。而哪些数据重复会被认定为重复也要看具体情况,例如不同分组下的数据就有可能存在重复数据,但确实符合业务逻辑的。
5.及时性是指数据从产生到可以查看的时间间隔。及时性对于数据分析的要求并不高,但是如果数据分析的周期加上数据建立的周期时间过长,那么这些数据也就失去了借鉴的价值。
2.3质量提升
MDM主数据管理平台作为一款解决企业数据问题的产品,自然有着独有的提升数据质量的方法。主数据平台中有质量管理的模块,其中,数据清洗以及数据巡检这两个功能可以用于提升数据的质量。
数据清洗主要是针对源头业务系统中的数据导入到主数据平台之前,需要先通过清洗功能将不符合质量要求的数据过滤出来,进行调整之后再次清洗,直至数据质量过关;而数据巡检主要是在日常数据操作的过程中可以通过配置巡检策略对数据的相似度进行查看,针对存在问题的数据可以进行调整直到符合前期制定的质量需求。
3数据巡检
数据巡检主要是用来保证数据的唯一性,通过巡检功能来对数据进行查重处理来保证分发到下游业务系统的数据是唯一的。
3.1功能说明
目前MDM中相似度巡检运算方式是根据多个字段的组合通过相似算法算出他们的相似百分比,然后查看是否超过配置的百分比数字,如果超过就判定为相似数据,然后记录到数据表中,还需添加新的质量校验算法,通过结果值乘以不同字段的阀值再除以阀值的相加和得出的数字进行数据巡检,巡检支持结果Excel输出,帮助客户提升主数据质量。
3.2功能配置
1.应用巡检功能需要配置巡检字段和巡检相似度,这两项是必须要配置的,否则无法进行巡检。
2.除了字段和相似度也可以配置巡检启动时间和时间间隔;启动时间为自动巡检的时间,而时间间隔是一次巡检结束后,隔多久进行下一次巡检。
3.配置好这些参数,就可以进行数据巡检的操作了。
3.3功能展现
1.主数据平台中预置的所有主数据以及新增的主数据都会显示在数据巡检页面上,如图所示:
2.单击选中一条数据点击执行会对该类主数据下的所有数据进行相似度的巡检,可以根据状态判断巡检是否完成,巡检结束后会显示相似数据的个数。
3.双击一条数据可以进入到相似数据页面来查看相似数据。
4.上面页面显示的是所有的相似数据,而每一条数据点击查看或者双击可以查看与之相似的数据。然后就可以对这些数据进行处理了。
4数据清洗
数据清洗就是在同步和治理过程中把主数据一些欠缺的、重复的、不符合规则的数据筛选出来,然后导出到Excel中,在Excel中调整完毕后再次导入清洗功能中直至数据全部清洗成功。
4.1功能说明
通过数据清洗功能下载主数据导入模板,源头业务系统把数据填写模板中,通过数据清洗导入功能进行导入清洗,检测出数据中欠缺的、重复的、不符合规则数据,通过导出功能把失败的数据导出到Excel中进行数据处理后,再重新导入重新检测直到所有数据成功为止,然后把所有成功的数据导出Excel中,返回给业务源头系统进行源头系统的数据清洗(源头系统添加主数据编码映射),通过主数据任务分发把标准的数据分发给业务,这样就把源头、主数据、下发至业务系统数据保持一致。
4.2功能配置
1.创建主数据通常分为两个部分,一个是数据建模,一个是功能建模,这两部分中都有数据清洗相关的配置。首先从数据建模中说起,在编辑主数据信息的时候可以选择是否需要数据清洗功能,如下图所示:
2.如果选择了数据清洗,当跳转到数据建模页面中时,就需要配置字段关联的校验规则了,之后的清洗过程就会按照配置的校验规则去执行。
3.配置好校验规则后点击提交按钮就会跳转到创建表的页面并生成数据清洗相关的那四张表,点击创建和提交,数据建模部分相关的配置就完成了。
4.接下来是功能建模,功能建模中配置的一个是数据清洗导出的策略,这个导出包括过程中导出和导出最终清洗结果。这个策略分为两种,分别为导出全批次成功和导出单批次全量。全批次成功导出的是所有批次下清洗成功的数据,单批次全量导出的是最后一个批次下的所有数据,如图所示:
4.3功能展现
1.左侧树选择对应的主数据节点,点击批次导出选择想要清洗Excel数据,导入之后如图所示,页面右上角会显示功能建模中配置的清洗导出策略,过滤条件框最右侧可以通过勾选是否重复来直接查看重复数据。
2.对于失败的数据,可以点击查看或者双击一条数据来查看数据详情和错误信息,如图所示:
3.清洗过滤可以通过字段和校验规则筛选出符合过滤条件的数据。
4.进入到数据详情页面可以查看重复数据的信息,包括常规的字段和重复的字段信息。
5.对于重复,清洗功能自带排除功能,可以将重复数据进行排除,如果不小心误删也可以通过还原按钮将数据还原回去,类似电脑桌面上的回收站功能。
5心得总结
最后一部分是对数据质量相关的一些个人理解,包括数据治理,数据质量分析以及产品的发展。
5.1数据治理
“数据”已成为企业的一项宝贵的战略资产。为了使庞大的数据发挥更大的价值,企业必须着眼于数据治理和综合利用。主数据驱动的数据治理是指从企业杂乱的数据中捕捉具有高业务价值、被企业内各业务部门重复使用的关键数据进行管理,构建单一、准确、权威的数据来源,从而提高企业的整体数据质量,提升数据资产价值,推动业务创新,全面增强企业竞争力。
5.2质量分析
数据质量分析是数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。常见的脏数据类型包括缺失值、异常值、不一致的值以及重复值。通过分析结果对数据进行处理,从而保证数据质量。
5.3产品发展
产品诞生要从不同角度来扩展迭代每个产品,通过从项目去,再从项目来,通过客户的需求筛选出我们产品需要的功能,进行产品功能升级,增强产品的功能性,而且需要做到换位思考,了解项目中实施的重点和难点,总结经验,扩展向导功能,加强产品的易用性,并且在开发时要考虑产品的性能和稳定性。
为了更好地开发产品,真正要做的是产品和项目本身的分离,将开发出来的产品作为一个平台,项目的特色化定制则是通过在产品基础上的配置和实施来实现。实施本身存在差异,但是作为通用化底层模型的产品平台本身可以产生强大的规模效应和底层支撑。另外推进产品开发的时候,要立足长远,不能仅想着开发的产品能不能满足现有需求,还要转变思想去挖掘潜在的市场需求。
以上是关于MDM数据质量应用说明的主要内容,如果未能解决你的问题,请参考以下文章