28数据仓库

Posted 字节行动

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了28数据仓库相关的知识,希望对你有一定的参考价值。

第【28】天。



摘要:

从信息系统本质来说,数据仓库与数据挖掘没有直接关系,但是数据仓库却是数据处理的核心组成部分,为数据挖掘工作提供坚实的数据基础。


01

前言


从信息系统本质来说,数据仓库与数据挖掘没有直接关系,但是数据仓库却是数据处理的核心组成部分,为数据挖掘工作提供坚实的数据基础,在2018年5月21发布的《银行业金融机构数据治理指引》中明确要求,银行业金融机构应当系统性的收集、整理、跟踪和分析各类数据,建立数据仓库、风险数据集市和数据管理系统,以获取、清洗、转换和存储数据,并建立数据质量控制政策和程序,确保数据的完整性、全面性、准确性和一致性,满足资本计量和内部资本充足评估等工作的需要。


02

数据预处理


在实际的业务运营过程中,各个银行业务系统存储的数据可能存在不同的错误、缺失和不一致等问题,这使得数据挖掘和分析系统不能直接进行数据的导入和使用,需要提供一个数据预处理环节,将这些可能存在问题的数据进行统一整理和标准化输出,以确保分析系统得到的数据是正确、完整和一致的。提前进行数据预处理,不仅可以对数据缺陷进行处理,保证数据质量还可以保证后续数据深度加工的性能以及精度,让处理结果不会因为数据原始的缺陷而走样,从而大大提高数据挖掘和分析结果的有效性。数据预处理是所有数据应用中的重要步骤,越早进行数据预处理,获得的好处就越明显,出现不必要错误的可能性也就越低。

目前比较常用的数据预处理技术主要有以下几种:

(1)数据清理。数据清理的目的是解决数据的错误和不一致问题,其最终目的是将数据格式标准化、异常数据的发现和处理、数据纠错、重复数据的发生和清除等。

在数据清理阶段,需要处理包括遗漏值以及噪声数据在内的异常情况,通常在处理遗漏值会使用包括忽略缺陷数据项、人工填写遗漏数据值、使用统一常量填充遗漏数据值、使用属性的平均值填充遗漏数据值、使用分组之后的样本属性平均值填充遗漏数据值和使用最可能的值填充遗漏数据值的方法来修复缺失和遗漏的数据,但这些方法或多或少都会带来数据失真的情况,相对而言,使用最可能的值充填遗漏数据值是使用最多的遗漏值填充方法,因为它可以参考其它属性的值,从多个维度对猜测值进行约束,从而有更大的概率获得与真实值接近也最合理的猜测值。

噪声数据是数据收集过程中产生的不可控的随机错误,是不可避免的,所以需要考虑对收集到的数据进行平滑操作,去掉或减少噪声数据对分析结果带来的影响,常用的数据平滑技术包括分箱操作、聚类操作、计算机与人工检查相结合的操作以及回归操作等。

(2)数据集成。数据集成的目的是整合来自多个数据源的数据,数据集成将多个数据源中的数据结合,并存放在同一个数据存储环境中,有助于减少数据集的冗余和不一致,提升后续数据处理的准确性和速度。

(3)数据归约。数据归约的目的是得到数据更加精简的表达。在内容大幅度压缩的同时,所表达的内容不能出现走样,最终的分析结果也应该保持不变。数据归约通常将数据按语义层次结构进行合并,语义层次结构定义了数据属性值之间的语义关系,因此当归约化使数据个数大量减少时,数据之间的关系可以保持不变。数据归约操作之后,数据量相比原始数据会有大量减少,从而能够大幅提升后续数据处理的性能和效率。数据归约的策略主要有数据立方聚集、维归约、数据压缩和数值压缩。

(4)数据变换。数据变换是对数据进行规范化、离散化和概念分层而进行的操作,其思路主要是找到数据的特征表示,用维变换转换方法减少有效变量的数目或找到数据的不变式,从而变成适合于后续处理的形式。数据变换的主要技术包括规格化、归约、变换、旋转、投影等操作。


03

数据治理


随着数据量的增大,对数据的处理不能仅仅停留在清理层面,而要从更高的层面来做数据质量控制,这就是数据治理。数据治理是从信息系统的级别,全面把握数据质量的体系,需要来自高层的授权和信息部门的合作,也需要信息部门和业务部门的综合监管,最终目标是从宏观上把握和提升数据的质量。数据治理需要从制度、标准、监控、流程等几个方面提升银行的数据信息管理能力,解决目前所面临的数据标准问题、元数据管理问题、数据质量问题和数据服务问题。


04

ETL工具


ETL意为抽取(Extract)、转换(Transform)、加载(Load),为数据预处理提供标准化的流程,是当前数据仓库系统的基础,数据仓库中的数据来自源业务系统,而ETL的主要功能是完成对源业务系统数据的抽取、清洗、转换和加工,生成数据仓库中的基础层和应用层数据。




说明:

(1)文中的配图大多来自互联网上授权图片提供商,并已获得免费使用授权,如果文中内容或是图片侵犯到您的权益,请及时告诉我。





以上是关于28数据仓库的主要内容,如果未能解决你的问题,请参考以下文章

计划的数据仓库维度(维度建模)

Azure SQL 数据仓库 ADO.Net 错误代码

数据仓库中的星型模式模型是啥范式

喜报!阿里云自研云原生数据仓库 AnalyticDB 获奖啦!

数据仓库中每个事实的开始和结束期间

小胖学LInux day28:自制YUM仓库