大数据项目2(数据挖掘之数据预处理相关概念)

Posted 晨沉宸辰

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据项目2(数据挖掘之数据预处理相关概念)相关的知识,希望对你有一定的参考价值。

在这里插入图片描述

一、总述

需要查看这一篇讲述了基本的方法以及分类
基础知识

二、数据清洗

一般数据清洗包括:

缺失值
异常值
数据噪声
数据不平衡
唯一值
重复值
格式清洗
思维逻辑

2.1 唯一值

如数据中id这个属性,如果每条数据都对应同一个id,那么该特征对数据的预测就没有任何意义,可删除该列数据。

但并不是所有数据的id都是无意义的。如果每个id都对应了很多的数据,则此时不应删除该id,而是对每个id中的数据进行统计分析。将一个id看做一组数据单独去分析,得到均值、中位数、标准差、峰度、偏度等描述该组分布的信息,整合为一个数据。这样每条数据才会对应一个id,进而再删除id。要根据具体的数据应用场景去判断,而不是一上来就删除数据。

2.2 重复值

重复值是无意义的数据,增加了数据量,但却没有增加数据的信息量。一般是将重复值删除。pandas里用data.drop_duplicates()函数进行删除。
链接:pandas重复值处理

2.3 格式清洗

2.3.1 数据类型

一般得到的数据杂乱无章,有的数据是数字、时间却是字符串表示,数据类型对不上。此时,应先对数据类型进行转换,否则无法进行正常运算操作。

在pandas里可用astype(数据类型),或者to_numeric(),进行转换。
链接:pandas数据类型转换

2.3.2 时间、日期、数值、全半角等显示格式不一致

这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。

2.3.3 字符问题

某些内容可能只包括一部分字符,比如身份证号是数字+字母,中国人姓名是汉字(赵C这种情况还是少数)。最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。

2.3.4 思维逻辑

这个比较玄乎,先通过举例让大家感受下。比如预测电影票房。票房的数据是不能直接拿过来就用的,因为存在通货膨胀,需要对票房进行一定的换算,这样的票房才是能用的数据。也就是说,用的数据是需要符合正常逻辑性的。另外,数据单位的转换,跟业务的关联性也是需要考虑的。
说明:
总之,数据清洗方面的工作有很多……而且,如果数据处理不好,特征没有选好,那么模型再厉害,也无济于事。所以才会经常看到这样的话,在工作或者竞赛中,数据清洗,特征工程方面的工作占据了80%以上的时间。其余模型的使用,需要知道原理,进而调包搭建模型即可。

三、数据集成

数据集成是指把数据从多个数据源整合在一起,提供一个观察这些数据的统一视图的过程。建立数据仓库的过程实际上就是数据集成。

数据集成中的两个主要问题是:

数据结构。如何对多个数据集进行匹配,当一个数据库的属性与另一个数据库的属性匹配时,必须注意数据的结构;
数据冗余。两个数据集有两个命名不同但实际数据相同的属性,那么其中一个属性就是冗余的。
链接:数据集成

四、数据归约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。

数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。通常有维归约、数值归约。
维归约指通过减少属性的方式压缩数据量,通过移除不相关的属性,可以提高模型效率。
常见的维归约方法有:分类树、随机森林通过对分类效果的影响大小筛选属性;小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数。

数值归约用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。

链接:数据规约详细介绍

五、数据变换

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。比如说,对于线性回归,数据进行归一化或标准化,统一量纲后的效果要比之前要好。因为是用距离去度量的,而树模型则不用进行这种变换。

光滑:去掉噪声;
特征构造:由给定的属性构造出新属性并添加到数据集中。例如,通过“销售额”和“成本”构造出“利润”,只需要对相应属性数据进行简单变换即可
聚集:对数据进行汇总。比如通过日销售数据,计算月和年的销售数据;
规范化:把数据单按比例缩放,比如数据标准化处理;
离散化:将定量数据向定性数据转化。比如一系列连续数据,可用标签进行替换(0,1);

六、总结

以上是关于大数据项目2(数据挖掘之数据预处理相关概念)的主要内容,如果未能解决你的问题,请参考以下文章

大数据项目实战之在线教育(01数仓需求)

大数据项目之电商数仓数据仓库概念项目需求及架构设计

大数据实战之用户画像概念项目概述及环境搭建

大数据项目车联网之项目基石与前瞻

实时即未来,大数据项目车联网之实时ETL任务消费数据

实时即未来,大数据项目车联网之实时ETL任务消费数据