数据质量及数据清洗方法
Posted dy9776
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据质量及数据清洗方法相关的知识,希望对你有一定的参考价值。
残缺数据
错误数据
重复数据
本文主要讨论实例层数据质量问题
- 数据质量评价(12个维度)
1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;
2)数据完整性准则(Data integrity fundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;
3)重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;
4)准确性(Accuracy):对数据内容正确性进行测量的标准;
5)一致性和同步(Consistency and synchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;
6)及时性和可用性(Timeliness and availability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准;
7)易用性和可维护性(Ease of use and maintainability):对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度的测量标准;
8)数据覆盖(Data coverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准;
9)表达质量(Presentation quality);如何进行有效信息表达以及如何从用户中收集信息的测量标准;
10)可理解性、相关性和可信度(Perception,relevance and trust):数据质量的可理解性和数据质量中执行度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准;
11)数据衰变(Data decay):对数据负面变化率的测量标准;
12)效用性(Transactability):数据产生期望业务交易或结果程度的测量标准。
在评估项目数据质量过程中,需先选取几个合适的数据质量维度,再针对每个所选维度,制定评估方案,选择合适的评估手段进行测量,最后合并和分析所有质量评估结果。
- 清洗方法
1)缺失数据处理
2)相似重复对象检测
3)异常数据处理
4)逻辑错误检测
5)不一致数据
以上是关于数据质量及数据清洗方法的主要内容,如果未能解决你的问题,请参考以下文章