数据的质量管控工作
Posted jane9872
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的质量管控工作相关的知识,希望对你有一定的参考价值。
数据的质量管控工作,整个工作应该围绕启动阶段制定的目标进行。适当引入一些质量管控工具可帮助我们更高效的完成工作。
第一步、数据剖析
首先应该进行已知数据问题的评估,这里评估的范围也应控制本轮管控的目标范围内。其次,通过对数据进行剖析,发现数据问题,具体规则又可通过标准或业务调研进行提取。
1)根据标准,提出标准规则比如,我们可以根据标准,提炼出如下图所示的编码规则,并进行检验。
2)调研业务,提取业务规则接着,我们可以从业务调研中提取规则,如金融业的大中小微企业贷款当年累放额计算口径:大中小微企业贷款当年累计发放额=大型企业贷款当年累计发放额+中型企业贷款当年累计发放额+小型企业贷款当年累计发放额+微型企业贷款当年累计发放额+个人经营性贷款当年累计发放额,这样的指标计算规则,并进行检查管控。
当然业务规则也可以是围绕我们既定的业务预期展开。目标不同,业务剖析的方向也应随之调整。
第二步、设计数据质量控制操作程序
获得已知数据问题后,就应设计数据质量控制操作程序。主要包括以下3个方面:
1)制定检查和监控的频率及方式2)制定质量问题评估方式和整改方式3)制定质量报告内容及对象
第三步、定义数据质量需求
根据剖析的质检规则和控制操作程序,对数据质量需求进行定义,这里又可拆分成以下三步。
1)梳理数据模型梳理数据模型的主要工作是确定检查对象实体之间的关系,如关键字、主外键关系梳理、字段类型、长度等。
2)建立质量规则这一步是将我们剖析的数据检验业务规则,转化成可执行、有结果的技术规则。
3)建立质检方案将可以同时评价且主责部门划分一致的规则集合起来,建立质检方案。也可根据业务或者评价规范再对规则进行细分并建立方案。
第四步、确定数据质量水平
数据质量需求定义完毕之后,我们就需要确定在此需求下,目前数据质量的水平处于什么位置。明确反应质量水平的并最直观的就是错误数据的详情情况,如下图所示。
根据汇报的对象不同,一般也需要出具质检情况的统计报告。
第五步、管理数据质量问题
问题找到,下一步我们就应该进行问题的管理了。根据不同的质量问题,进行不同的质量整改方案。一般方式有以下4种:
1)源头修改,即问题数据生产系统中进行修改。2)补录,即在数据中心,建立一个新的仓库,针对数据问题进行补充录入,一般情况为源系统升级或其他原因导致无法从源系统进行修改,而采取的变通方案。3)技术修复,即通过如ETL工具等技术手段,对问题数据进行清洗、转换。
4)遗留问题管控,即对一些无法修复处理的数据进行特殊处理,一般情况下进行标记或者例外处理。
今天下午我们聊聊「敏捷开发中的性能质量管控」,参与有礼:)
数据库大咖讲坛(第2期):敏捷开发中的性能质量管控 - 4月16日14:00
SQL太慢?如何优化?SQL质量如何管控?
自动优化SQL,专业的审核工具如何使用?
开发写的SQL搞崩了数据库,还甩锅DBA!
平安银行、腾讯云、阿里云及云和恩墨的
专家联袂为你解答!
2021年度数据库大咖讲坛,开启年度第2站!我们此次邀请国内顶尖行业专家,以"敏捷开发中的性能质量管控"为切入点,重点围绕数据库、敏捷开发、性能管控等方向,与大家共同探讨数据库运维中的常见问题的破解之道。
此次讲坛,汇聚ACDU社群百名专家资源,是墨天轮社区与行业领先企业共同打造的运维领域线上系列技术主题分享活动之一,全面覆盖从DBA、运维工程师到CXO等所有技术圈层,从互联网、电信、金融、交通到物流等重点行业的实践应用着手,在敏捷开发过程中,如何在实施过程中把握关键的实践点,以及事务性工作中的策略选择和配置,及运维过程中的关注角度提供最佳参考,共同助力推动行业生态构建与可持续性发展。
-
敏捷模式下,SQL质量管控在金融行业的探索与实践 -- 平安银行 齐云飞 -
通用型性能测试平台实战分享 -- 腾讯云 胡永 -
SQL质量管控在敏捷开发中的正确落地 -- 云和恩墨 吴涵文 -
敏捷开发中的数据库DevOps最佳实践 -- 阿里云 刘芬芳
现场为大家准备了30份精美礼品!积极参与直播间互动就有机会获得哦!
在线观看直播的同学们要留意小助手在直播间聊天室放出的“暗号”并依指示做出回应,牛年Q公仔和云和恩墨定制笔本套装就可能是你的了!
添加墨天轮小助手微信:modb666,发送“常用数据库+姓名+职务”,进技术交流群,第一时间获取直播动态、课件资料、视频回放~
马上扫描海报中的二维码或点击文末“阅读原文”
预约收看直播!
以上是关于数据的质量管控工作的主要内容,如果未能解决你的问题,请参考以下文章