数据竞赛知识点 | 数值特征的缩放与编码
Posted 叶庭云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据竞赛知识点 | 数值特征的缩放与编码相关的知识,希望对你有一定的参考价值。
CSDN 叶庭云:https://yetingyun.blog.csdn.net/
数值特征是结构化数据竞赛中常见且重要的特征。一般而言数值特征的操作,主要包括如下几个方面:
- 缺失值处理
- 异常点处理
- 缩放处理
- 编码处理
1. 缺失值填充
如果使用非树模型,则需要考虑对数值特征进行有效填充。缺失值填充的基础方法包括:
- 使用统计值填充(均值/中位数/常数)
- 最近邻样本填充(前向/后向)
- 基于模型预测的填充
2. 异常点处理
分析和检测异常点,进而决定是删除还是替换掉。
3. 缩放处理
树模型可以不用做数据缩放,数值特征需要数据缩放处理后再加到深度模型中(通常来说效果会更好),可以直接对原始特征做归一化,或者通过 BN 层来做归一化。
-
RankGuass:计算得到数据的排序信息,转换尺度到
以上是关于数据竞赛知识点 | 数值特征的缩放与编码的主要内容,如果未能解决你的问题,请参考以下文章