机器学习 | 特征选择(Feature Selection)

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 | 特征选择(Feature Selection)相关的知识,希望对你有一定的参考价值。

首先对Feature Selection相关的问题进行一个综合性的回顾,主要包含一下几点:
1) Dimensionality reduction(降维)简要介绍; 
2) Feature extraction/ Feature projection(特征提取/特征投影)简要介绍;
3)Feature selection(特征选择)简要介绍;
4)Feature selection(特征选择)展开描述;
5)部分相关文献推荐。

Feature Selection其实是属于 Dimensionality reduction(降维)方法里面的一个子方向,所以我们先来说一说Dimensionality reduction.


1. Dimensionality reduction(降维) 简要介绍

Dimensionality reduction是数据挖掘/机器学习里面用来移除不相关特征(irrelevant, noisy)、冗余特征(redundant)的一种常用技术。所谓的不相关特征(irrelevant, noisy),也就是说这些特征和你要做的事情没有半毛钱关系。举个例子,如果你的算法是为了预测一个上海某高校本科生毕业年薪是多少,但是你采集变量的时候采集了格陵兰岛今年的降水量。降水量这个特征可以说是没有半毛钱关系;所谓的冗余特征(redundant),也就是说你采集的特征里面有可能高度相关的:比如说上一届学长学姐的平均税前收入、平均税后收入、平均纳税数额。
那么同学们有可能会问:数据不是越多越好吗?我们为什么要移除其中一部分变量呢?其实主要有两个原因:

1) 由于curse of dimensionality的存在(维数诅咒,不了解的同学可以去百度/谷歌一下),导致很多在较低维度空间有效的算法

以上是关于机器学习 | 特征选择(Feature Selection)的主要内容,如果未能解决你的问题,请参考以下文章

R语言基于机器学习算法进行特征筛选(Feature Selection)

R语言基于Boruta进行机器学习特征筛选(Feature Selection)

机器学习-特征工程-Feature generation 和 Feature selection

机器学习sklearn(十七): 特征工程特征选择卡方选择卡方检验

Python scikit-learn机器学习工具包学习笔记:feature_selection模块

机器学习实战基础(十八):sklearn中的数据预处理和特征工程特征选择 之 Wrapper包装法