Datawhale动手学习数据分析-Task2
Posted GoAl的博客
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Datawhale动手学习数据分析-Task2相关的知识,希望对你有一定的参考价值。
数据处理总结:
缺失值处理
该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强
考虑填充新的值,比如-1
填充众数、平均数(需要取整),knn邻近(速度慢)
异常值处理
识别:
箱型图识别
3σ识别
处理:
边界值替换
映射到新维度μ,μ(正常值)=0,μ(异常值)= function(异常值)
不处理,与原数据一起归一化|标准化
分桶法(分箱法),单正常值要一起处理
特征选择:
PCA
相关性分析,剔除相关性高的类别,仅保留其中一类或少数类
通过添加噪声体现特征重要性
使用一些基于树的模型训练,可得到参数重要性
特征构造:
构造统计量特征
计数
求和
比例
标准差
上述计量特征的组合
时间特征
绝对时间
时间差
特殊时间:春节、国庆节等等节假日,是否会对价格造成影响,因为商家可能进行促销等等
地理信息
分箱
分布编码
高频统计,取高频
简单的标准化|归一化,暂时没有想到更好的方法了
非线性变换,包括 log/ 平方/ 根号等
多项式组合
以上是关于Datawhale动手学习数据分析-Task2的主要内容,如果未能解决你的问题,请参考以下文章