特征工程--特征变换

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程--特征变换相关的知识,希望对你有一定的参考价值。

参考技术A 1、特征尺度变换

1.1什么是特征尺度变换

是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量;其应用范围包含物体识别、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。支持常见的尺度变化函数 log2,log10,In,abs,sqrt。支持稠密或稀疏

1.2如何使用特征尺度变换

阿里数加平台提供在画布区拖拽式的方式进行配置,以算法参数的方式提供给用户,要想使用每个组件,须先了解每个参数的含义

2、特征异常平滑

2.1什么是特征异常平滑

将输入特征中含有异常的数据平滑到一定区间,支持稀疏和稠密(特征平滑组件只是将异常取值的特征值修正成正常值,本身不过滤或删除任何记录,输入数据维度和条数都不变)

2.2如何使用特征异常平滑

特征异常平滑分为 Zscore平滑、百分位平滑、阈值平滑

3、异常检测模块

3.1什么是异常检测模块

顾名思义,异常检测就是检测异常的;分为针对连续值特征的异常(按箱线图最大值和最小值检测异常特征),针对枚举值特征的异常(按照枚举特征的取值频率,按照阈值过滤异常特征)

3.2如何使用异常检测模块

阿里数加平台提供在画布区拖拽式的方式进行配置,以算法参数的方式提供给用户,要想使用每个组件,须先了解每个参数的含义

4、one-hot编码

4.1什么是one-hot编码

one-hot编码,也称独热编码,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的,输出结果也是k:v的稀疏结构

4.2如何使用one-hot编码

二值化

5、特征离散

5.1什么是特征离散

顾名思义,特征离散就是离散特征的,分为“支持稠密或稀疏的数值类特征离散”和“支持等频离散和等距离离散”

5.2如何使用特征离散

直接选择离散方法和离散区间即可

6、主成分分析(PCA)

6.1什么是主成分分析

PCA利用主成分分析方法,实现降维和降噪的功能;目前支持稠密数据格式

6.2如何使用主成分分析

我也不是很清楚,等清楚之后再补

特征工程+特征组合+特征交叉+特征变换+生成特征

特征组合+特征交叉(交叉特征,组合特征,特征组合)+特征变换+生成特征+特征提取+ 特征缩放+特征选择+特征分箱+时间特征+特征关联+文本特征+特征采样

 

 

特征关联---->corr()

特征分箱---->bin,pandas cut,pandas qcut

特征缩放/特征标准化----->scale(),MinMaxScaler(),robustScaler()

特征归一化----->Normalization

以上是关于特征工程--特征变换的主要内容,如果未能解决你的问题,请参考以下文章

特征工程

机器学习实战 | 机器学习特征工程最全解读

关于特征工程的一些学习思考与错误的纠正

使用sklearn做单机特征工程

使用sklearn做单机特征工程

使用sklearn做单机特征工程