数据质量包括啥方面
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据质量包括啥方面相关的知识,希望对你有一定的参考价值。
数据质量包括数据质量控制和数据治理。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
扩展资料:
控制方法:
1、探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
2、建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
3、设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
4、将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
5、检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
5、对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
参考资料来源:百度百科——数据质量
参考技术A一 数据质量基本概念
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益
二 影响因素
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。
数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。
在此附上数据的生命周期图,包括各环节的数据流转和数据处理。
三 评估维度
完整性
数据完整性问题包含数据条目不完整,数据属性不完整等
一致性多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等
准确性准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策
唯一性
用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同, 流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题
关联性数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真 实可靠的 原始统 计数据是企业统计工作的灵魂,是一切管理工作的基础,是经 营 者进行正确 经营决策必不可少的第一手 资料。
及时性数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
逻辑检查不同表字段之间可能会有逻辑关联,需要稽核
离群值检查部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W
自定义规则由需求方自定义相关规则
波动稽核
与上周环比稽核波动情况
强弱规则
每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方 式是有帮助的
我们最终的目的是希望做到页面可配置
数据质量包括数据质量管理和数据治理两个大方向。数据质量管理是一种为了满足企业对于数据的需求,对各种业务活动产生的数据进行规范存储,然后通过ETL方法处理后把不同来源数据统一储存在数据仓库中的过程。
一、数据质量管理
数据质量管理不是短期内就能完成数据处理,提高数据质量的工具,也不是一种数据类的技术,更不是一个软件系统,而是一种长期循环持续的管理活动体系,是包含着方法论、业务和管理的数据类技术解决方案。
1.数据规划
企业管理人员必须先确定好数据质量管理体系的顶层设计,从思维的方向出发把企业文化变成数据驱动型文化,然后提前做好数据规范,将其融合到企业的KPI指标中,利用奖惩制度监督员工,把数据确立为企业的基石。
2.数据存储
部署商业智能BI,将企业原本拥有的业务信息系统以及其它不同来源的数据统一连接到数据仓库中,再经过ETL过程处理后,企业的数据质量就能飞速提高。
3、
数据分析人员可以通过派可数据BI中的可视化分析功能,从图表直连数据仓库取数,实现流程的自动化,避免出现其他干扰,然后通过联动、钻取等功能实现不同图表之间的互动,深化可视化分析报表展现的数据量和深度。
4.形成闭环
业务活动产生数据,分析人员利用数据判断出业务发展趋势,辅助管理人员对业务发展进行决策。在这么一个不断优化的闭环流程中,数据质量将会不断提高,逐渐将企业数据精细化到极致,进而产生变革。
二、数据治理
数据治理是一种提高数据质量的手段,最后还是要回到业务本身,实现落地,对于企业来说,能够对业务活动进行量化处理,并以数据的形式展现出来,是数字化时代现代企业的重要标志。
数据治理的目标其实就是不断提高业务数据的质量,增强数据的可信度,减少错漏。对于企业管理人员来说,数据就是他们了解企业整体发展状况最重要甚至是唯一的渠道。
数据治理的目标不仅是优化提效,更是涉及决策发展,关乎企业发展的关键。由此,我们可以初步确定数据治理的目标。
完整性:规范业务流程,完善数据库数据模型;
准确性:增加数据质量考核标准,建立奖惩制度;
及时性:优化数据存储调取时间,提升取数分析效率;
一致性:确定数据指标体系,确保数据和业务相对应;
唯一性:添加数据查询索引,避免数据库数据重复。
派可数据 商业智能BI可视化分析平台
准确性,即一个记录值与它的真实值之间的接近程度;
精度,即对现象描述的详细程度;
空间分辨率,即两个可测量数值之间最小的可辨识的差异;
比例尺,即地图上一个记录的距离和它所表现的真实距离之间的一个比值;
误差,即一个所记录的测量和它的事实之间的差异;
不确定性,包括空间位置的不确定性、属性不确定性和数据不完整性等。 参考技术D
亿信数据质量管理平台(EsDataClean) 产品功能主要包括这些方面
质量评价方法
规则定义
质量模型
跨数据源比对
质量分析
重大问题告警
数据整改
质量绩效评估
质量公告与论坛
知识库积累
质量报告及订阅
完备的B/S服务器管理
媲美专业级门户设计
数据治理:数据治理功能方面
数据治理功能方面
数据规模大并且成熟企业中数据治理通常包含以下几个功能方面: 数据治理包括主数据管理、元数据管理、数据标准管理、数据质量管理、数据集成管理、数据资产管理、数据安全管理、数据交换管理、数据生命周期管理方面。
一、主数据管理
主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。例如对于银行来说,用户账号、贷款账号信息、理财产品等就是主数据;对于电商网站,用户、商品就是主数据等。主数据管理包括主数据申请、主数据发布、主数据分发等。
二、元数据管理
元数据(Meta-data)是描述数据的数据。例如一个文本数据的大小,位置,创建人,创建日期等,这些数据就是该文本文件的元数据。元数据又分为业务元数据、技术元数据、操作元数据、管理元数据。
- 业务元数据:与业务规则、流程相关的描述性数据。例如:人员信息数据中的统计时间、统计周期、统计区域范围等。
- 技术元数据:与存储、访问等技术底层相关描述性数据。例如:人员信息数据存储在的位置、访问的URL地址,数据存储库,对应的表名,字段有哪些等。
- 操作元数据:与数据操作相关的描述性数据。例如:人员信息数据上传人,上传时间,修改时间等。
- 管理元数据:与数据管理相关的描述性数据。例如:人员信息数据访问权限,安全等级,质量等级,过期时间等。
元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。元数据管理主要包括元数据采集、血缘分析、影响分析等。
三、数据标准管理
数据标准(Data Standards)是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。用通俗的话讲数据标准就是在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。例如:对于银行系统中的客户,核心系统人员认为在银行开户存钱的人就是客户,信贷系统人员认为在银行中贷款的人就是客户,理财系统的人认为理财的人就是客户等。
以上如果没有统一标准的话,不仅增加沟通成本,而且项目实施、交付、信息共享、数据集成、协同工作往往会出现各种问题,而数据标准管理就是将这一套数据标准,通过各种管理活动,推动数据进行标准化的一个过程,是数据标准落地必不可少的过程。数据标准管理包括标准定义、标准查询、标准发布。
四、数据质量管理
数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用,随着公司数据的来源、形式越来越多,数据质量的战略价值也急剧上升。例如:检查某业务数据唯一性、完整性、数据流程转换过程一致性、数据真实性等。数据质量管理包括质量规则定义、质量检查、质量报告等。
五、数据集成管理
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从而为企业提供全面的数据共享,企业实现数据共享可以使用更过的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用, 在大数据中一般采用数据仓库进行数据集成管理。数据集成包括数据处理、数据加工、数据汇集等。
六、数据资产管理
数据资产管理就是汇总、存储所有参与数据治理平台的各个系统的数据资产,确保数据资产的一致性和完整性,让管理者可以一目了然的了解到所有资产,提供决策依据,提升数据资产的价值。例如:数据仓库中存储的各类数据就是资产,如果不做数据资产管理来了数据之后就直接存储,用户查找响应数据就需要慢慢去查询,效率低下,如果对数据做了资产管理分类,就可以轻松获取对应类别全部数据及位置,结合数据生命周期管理还可清楚知道数据进入数仓时间,移出数仓时间等。
数据资产管理的重要性随着企业的发展,企业拥有的数据资产只会越来越庞杂,通过数据资产管理对资产进行有序的管理、提升数据利用价值是必不可少的环节。数据资产处理不当,数据繁杂无序,那么这些数据将不再是资产,而是垃圾,随着系统更新换代,我们将会永远丢失这部分资产。数据资产管理包括数据资产编目、数据资产服务、数据资产审批
七、数据安全管理
企业有些数据非常重要且敏感,这些数据大部分集中在应用系统中,例如银行系统中客户的联络信息、资产信息等,如果不慎泄露,不仅给客户带来损失,也会给银行带来不利的声誉影响,因此数据安全在数据管理和治理过程中是相当重要的。数据安全管理包括数据权限管理、数据脱敏、数据加密等。
八、数据生命周期管理
任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。
数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段,即离线数仓和实时数仓构建,将数据存入数仓)、销毁阶段三大阶段,数据生命周期管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。
九、数据交换管理
企业中随着时间和业务增长建立了众多的信息系统,但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。例如数据仓库DM层分析人员信息中缺失数据,可以通过数据交换系统反哺到业务系统中,避免重复劳动。企业急需通过建立底层数据集成平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝的共享和交换数据,避免“数据孤岛”问题。
以上几个方面相辅相成,每个公司根据每个公司的数据规模不同建设的数据治理方面不同,其中以上几个方面中数据治理基础方面有数据集成管理、数据质量管理,元数据管理,数据安全管理。前面课程中学习过的数据仓库项目构建数仓就相当于是一个数据集成管理过程,下面重点介绍数据质量管理,元数据管理,数据安全管理三方面。
实施有效的数据治理可以确保企业数据符合重要的数据法规,数据标准化可以提高数据的透明度,降低使用数据的成本,提高运营效率,数据治理是所有数据应用的根基,数据治理的好坏直接影响数据应用的价值,通过数据治理可以给企业提供更直观、准确、安全的数据分析结果
- 📢博客主页:https://lansonli.blog.csdn.net
- 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
- 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
- 📢大数据系列文章会每天更新,停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
以上是关于数据质量包括啥方面的主要内容,如果未能解决你的问题,请参考以下文章