大数据时代,为啥要对数据进行清洗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据时代,为啥要对数据进行清洗相关的知识,希望对你有一定的参考价值。

数据意味着什么

在计算机这门科学中被经常谈论到的是对资源的管理。最典型的资源就是时间、空间、能量。数据在以前并没有被认为是一种资源,而是被认为成一种使用资源的事物。现在观念中,数据已被广泛认为是一种资源,是我们可以利用并从中获得价值和知识的一种资源。将数据资源进行分析挖掘,从而使我们做出适时的、节约成本、高质量的决定和结论。


为什么要整理数据

企业认识了数据的价值,但是数据本身存在的一些特点,使得每个企业又对其头疼不已。这里想提到的其中一个特点Variety(杂)- 数据来源多种多样,数据的形式更是千奇百怪。

当与各种数据打交道的时候,通常会发现,数据本身真的不是那么友好。打个比方,如果企业想直接从业务数据库提取数据用来分析,会面临的问题是,业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范式,尽可能减少数据冗余,但同时也带来的负担是,表与表之间关系错综复杂。

在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度,同时因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。

此外,随着NoSQL数据库的进一步发展,有许多数据储存在诸如MongoDB等NoSQL数据库中,多种多样的数据储存方式,也给取数带来了困难,没法简单地用一条SQL完成数据查询。就更别提机器的源日志和靠爬虫扒到的数据了。

所以整理数据的目的就是从以上大量的、结构复杂、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据和数据结构。清洗后、保存下来真正有价值、有条理的数据,为后面做数据分析减少分析障碍。


什么是数据清洗

如何去整理分析数据,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。


MicroStrategy通过长期思考和解决企业面对的众多复杂应用场景,深入开发各种辅助功能帮助用户去深度体验连接数据和整理数据,使其模型可以支持一站式连接各种类型数据资源,包括各类型文本文件,超过 70 个 RDBMS、多维表达式 (MDX) 多维数据集源、Hadoop 系统和云端数据源。MicroStrategy凭借开箱即用数据连接和本机驱动,同时也提供将不同数据源数据进行融合,清除用户和数据源之间的障碍。

参考技术A 简单的来说,进行数据清洗就是使数据变得完整,从而使后续对这些数据进行分析的结果更为准确 参考技术B 去除无用的数据,清洗后数据更能清晰的分析

数据清洗有哪些方法?

​随着大数据时代的发展,越来越多的人开始投身于大数据分析行业。当我们进行大数据分析时,我们经常听到熟悉的行业词,如数据分析、数据挖掘、数据可视化等。然而,虽然一个行业词的知名度不如前几个词,但它的重要性相当于前几个词,即数据清洗

顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。哪些数据被称为脏数据?例如,需要从数据仓库中提取一些数据,但由于数据仓库通常是针对某一主题的数据集合,这些数据是从多个业务系统中提取的,因此不可避免地包含不完整的数据。错误的数据非常重复,这些数据被称为脏数据。我们需要借助工具,按照一定的规则清理这些脏数据,以确保后续分析结果的准确性。这个过程是数据清洗。

常用的数据清洗方法主要有以下四种:丢弃、处理和真值转换。让我们来看看这四种常见的数据清洗方法。

1、丢弃部分数据

丢弃,即直接删除有缺失值的行记录或列字段,以减少趋势数据记录对整体数据的影响,从而提高数据的准确性。但这种方法并不适用于任何场景,因为丢失意味着数据特征会减少,以下两个场景不应该使用丢弃的方法:数据集中存在大量数据记录不完整和数据记录缺失值明显的数据分布规则或特征。

2、补全缺失的数据

与丢弃相比,补充是一种更常用的缺失值处理方法,通过某种方法补充缺失的数据,形成完整的数据记录对后续的数据处理。分析和建模非常重要。

3、不处理数据

不处理是指在数据预处理阶段,不处理缺失值的数据记录。这主要取决于后期的数据分析和建模应用。许多模型对缺失值有容忍度或灵活的处理方法,因此在预处理阶段不能进行处理。

4、真值转换法

承认缺失值的存在,并将数据缺失作为数据分布规律的一部分,将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。然而,变量的实际值可以作为变量值参与模型计算,而缺失值通常不能参与计算,因此需要转换缺失值的真实值。

俗话说,工欲善其事,必先利其器。一个好用的工具对数据清洗工作很有帮助,思迈特软件Smartbi的数据清洗功能就十分优秀。

思迈特软件Smartbi的轻量级ETL功能,可视化流程配置,简单易用,业务人员就可以参与。采用分布式计算架构,单节点支持多线程,可处理大量数据,提高数据处理性能。强大的数据处理功能不仅支持异构数据,还支持内置排序、去重、映射、行列合并、行列转换聚合以及去空值等数据预处理功能。

现在你知道什么是数据清洗吗?数据清洗是数据分析中一个非常重要的环节,不容忽视。Smartbi的这些功能配置,无疑是数据清洗的好帮手。

以上是关于大数据时代,为啥要对数据进行清洗的主要内容,如果未能解决你的问题,请参考以下文章

大数据时代:红色文化数字建设

大数据时代,企业如何做好数据防泄漏?

什么是大数据时代

☞专栏董飞:后Hadoop时代的大数据架构

大数据时代,传统数据仓库技术是否已经过时?

2019国际大数据数博会-软件数据时代展会