特征工程

Posted spp666

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程相关的知识,希望对你有一定的参考价值。

一、特征选择

(1)特征来源:

    1、已经处理好的特征数据

    2、从业务特征中自己去寻找高级数据特征

(2)选择合适的特征:

    1、寻找该领域专家,向他们寻求建议

    2、方差筛选

    3、过滤法

    4、包装法

    5、嵌入法

(3) 寻找高级特征

    1、若干项特征向加和

    2、若干项特征相乘

    3、若干项特征之差

    4、若干项特征除商

 

二、特征表达(如何对某一特征的具体表现形式做处理

(1)缺失值处理

    1、对连续值来说:取平均值、中位数进行缺失值补充

    2、对离散值来说:最频繁出现的类别

(2)特殊的特征处理

  一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法

    1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法

    2、对地理特征:可以转化为经度和维度连续特征值

(3)离散特征的连续处理:

    1、独热编码one-hot encoding

    2、特征嵌入embedding

(4)离散特征的离散化:

    1、独热编码

    2、虚拟编码

(5) 连续特征离散化

 

三、特征预处理

(1)特征的标准化与归一化

    1、z-score标准化

    2、max-min标准化

    3、L1、L2范数标准化

(2)异常特征样本清洗

    1、聚类

    2、异常点检测

(3)处理不平衡数据

    1、权重法

    2、采样法

 

参考:https://www.cnblogs.com/pinard/p/9093890.html

   https://www.cnblogs.com/pinard/p/9061549.html

   https://www.cnblogs.com/pinard/p/9061549.html

以上是关于特征工程的主要内容,如果未能解决你的问题,请参考以下文章

特征工程

特征工程

数据挖掘——特征工程

文本分类特征工程概述

机器学习特征工程之特征构造:构造统计特征

特征工程|时间特征构造以及时间序列特征构造