Datawhale动手学习数据分析-Task2

Posted GoAl的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Datawhale动手学习数据分析-Task2相关的知识,希望对你有一定的参考价值。

在这里插入图片描述

 

数据处理总结:
缺失值处理

该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强
考虑填充新的值,比如-1
填充众数、平均数(需要取整),knn邻近(速度慢)

异常值处理

识别:
箱型图识别
3σ识别
处理:
边界值替换
映射到新维度μ,μ(正常值)=0,μ(异常值)= function(异常值)
不处理,与原数据一起归一化|标准化
分桶法(分箱法),单正常值要一起处理
特征选择:

PCA
相关性分析,剔除相关性高的类别,仅保留其中一类或少数类
通过添加噪声体现特征重要性
使用一些基于树的模型训练,可得到参数重要性
特征构造:

构造统计量特征
计数
求和
比例
标准差
上述计量特征的组合
时间特征
绝对时间
时间差
特殊时间:春节、国庆节等等节假日,是否会对价格造成影响,因为商家可能进行促销等等
地理信息
分箱
分布编码
高频统计,取高频
简单的标准化|归一化,暂时没有想到更好的方法了
非线性变换,包括 log/ 平方/ 根号等
多项式组合
 

以上是关于Datawhale动手学习数据分析-Task2的主要内容,如果未能解决你的问题,请参考以下文章

Datawhale7月组队学习task2数据清洗

Datawhale动手学习数据分析-Task4

Datawhale动手学习数据分析-Task3

Datawhale动手学习数据分析

Datawhale动手学习数据分析-Task5

Datawhale 学CV--task2 模型理解