数据科学之数据预处理

Posted JohnKing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据科学之数据预处理相关的知识,希望对你有一定的参考价值。

数据预处理

1数据质量

基本属性:正确性,完整性,一致性

 

2数据审计

运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。

数据审计的三种类型:预定义审计,自定义审计,可视化审计

3数据清洗

3.1缺失数据清洗

三个活动:缺失识别,缺失分析,缺失处理

方法:较为简单缺失,可以忽略,删除,插值等,复杂的:模型选择法,模式混合法等

3.2冗余数据清洗

方法:重复过滤,直接过滤,间接过滤,条件过滤

3.3噪声数据处理

方法:分箱,聚类,回归

4数据变换

5数据集成

对来自不同数据源的数据进行集成,然后才能分析处理。

5.1基本类型

内容集成

结果集成

5.2主要问题

模式集成

数据冗余

冲突检测与消除

6其他预处理方法

6.1数据脱敏

简单来说就是在不影响数据分析结果的准确性前提下对敏感数据进行变换,过滤,删除等操作,降低数据的敏感性。

6.2数据规约

减少数据规模,从而提升数据分析效率和效果。也是具有前提条件的。

6.3数据标注

通过增加数据标注(颜色,纹理,词性,形状等)提高数据检索,洞察,分析和挖掘的效果和效率。

以上是关于数据科学之数据预处理的主要内容,如果未能解决你的问题,请参考以下文章

AI:Python与人工智能相关的库/框架(机器学习&深度学习&数据科学/计算机视觉/自然语言处理)的简介案例应用之详细攻略

①《计算机科学导论》之绪论

机器学习100天:003 数据预处理之处理缺失值

机器学习100天:003 数据预处理之处理缺失值

机器学习数据预处理之离群值/异常值:标准差法

机器学习数据预处理之离群值/异常值:图像对比法