数据清洗
Posted macyzhang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据清洗相关的知识,希望对你有一定的参考价值。
为什么要预处理数据?
- 数据缺失:记录为空&属性为空
- 数据重复:完全重复&不完全重复
- 数据错误:异常值&不一致
- 数据不可用:数据正确但不可用
如何预防脏数据?
- 制定数据标准
- 优化系统设计
1. 处理数据缺失:
- 忽略该记录
- 使用默认值
- 使用属性平均值
- 使用同类样本平均值
- 预测最可能的值
2. 处理数据重复:
- 删除完全重复的记录
- 合并不同的表,增加部分冗余属性
3. 处理数据错误:不一致
- 制定清洗规则,进行匹配
- 通过统计描述,找到异常值
噪声数据的处理
1. 分箱:
把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
需要确定的主要问题:分箱方法,即如何分箱;数据平滑方法,即如何对每个箱子中的数据进行平滑处理。
分箱方法:
- 等深分箱法(统一权重):按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称为箱子的深度。每个箱子具有相同的记录数。
- 等宽分箱法(统一区间):在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。不能保证每个箱子中样本数一致。
- 用户自定义区间:用户根据需要自定义区间。
平滑处理:
- 按平均值平滑:对同一箱子中的数据求平均值,用平均值代替该箱子中的所有数据。
- 按边界值平滑:用距离较小的边界值代替箱中的每一数据。
- 按中指平滑:取箱子的中值,用来替代箱子中的所有数据。
2. 回归
发现两个相关的变量间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。
回归方法:线性方法;非线性方法。
3. 聚类
将物理的或抽象对象集合分组为不同簇,找出并清除那些落在簇之外的值(鼓励点),这些鼓励点被视为噪声。
通过聚类分析发现异常数据:相似或向邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,被认为是异常数据。
特点:直接形成簇并对簇进行描述,不需要任何先验知识。
以上是关于数据清洗的主要内容,如果未能解决你的问题,请参考以下文章