数据清洗

Posted 2021-01-12 macyzhang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据清洗相关的知识，希望对你有一定的参考价值。

为什么要预处理数据？

如何预防脏数据？

1. 处理数据缺失：

2. 处理数据重复：

3. 处理数据错误：不一致

噪声数据的处理

1. 分箱：

把待处理的数据按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。

需要确定的主要问题：分箱方法，即如何分箱；数据平滑方法，即如何对每个箱子中的数据进行平滑处理。

分箱方法：

平滑处理：

2. 回归

发现两个相关的变量间的变化模式，通过使数据适合一个函数来平滑数据，即利用拟合函数对数据进行平滑。

回归方法：线性方法；非线性方法。

3. 聚类

将物理的或抽象对象集合分组为不同簇，找出并清除那些落在簇之外的值(鼓励点)，这些鼓励点被视为噪声。

通过聚类分析发现异常数据：相似或向邻近的数据聚合在一起形成了各个聚类集合，而那些位于这些聚类集合之外的数据对象，被认为是异常数据。

特点：直接形成簇并对簇进行描述，不需要任何先验知识。

以上是关于数据清洗的主要内容，如果未能解决你的问题，请参考以下文章