特征工程

Posted simple_wxl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程相关的知识,希望对你有一定的参考价值。

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大)

L1稀疏,L2平滑作用

 

L1的稀疏化性质去掉无关特征,只留下相关特征

L2如果特征有些是共线性的,L1会扔掉这些特征,导致模型误差较大

数据和特征处理

数据清洗

正负样本不平衡的处理方法:上采样,下采样,修改损失函数

数值型特征:幅度调整,归一化,离散化

类别型特征:one-hot 编码

组合特征

 

 

特征选择

原因:冗余,噪声

特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征

特征选择的3种方法:

过滤型

 

 包裹型

 

嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值

 

 

 

以上是关于特征工程的主要内容,如果未能解决你的问题,请参考以下文章

特征工程

特征工程

数据挖掘——特征工程

文本分类特征工程概述

机器学习特征工程之特征构造:构造统计特征

特征工程|时间特征构造以及时间序列特征构造