特征工程包含那些步骤?如何进行特征的迭代?

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程包含那些步骤?如何进行特征的迭代?相关的知识,希望对你有一定的参考价值。

特征工程包含那些步骤?如何进行特征的迭代?

特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。

特征工程更是一门艺术,考验数据科学家对数据明锐度以及对业务问题的精确理解。导致许多机器学习项目成功和失败的主要因素就是使用了不同的特征。

Feature engineering is the process of using domain knowledge of the data to create features that make machine learning algorithms work. ”

  • 特征工程:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
  • 特征构建:是原始数据中人工的构建新的特征。
  • 特征提取:自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。
  • 特征选择:从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果

特征工程的步骤:

数据获取(acquisition),数据的可用性评估(覆盖率,准确率,获取难度),garbage in garbage out.

探索性数据分析(exploratory data analysis, EDA),对数据和特征有一个大致的了解,同时进行数据的质量检验,包括缺失值,

以上是关于特征工程包含那些步骤?如何进行特征的迭代?的主要内容,如果未能解决你的问题,请参考以下文章

文本分类特征工程概述

数据分析之特征工程——Filter过滤法

特征工程-使用随机森林进行缺失值填补

特征工程-使用随机森林进行缺失值填补

特征工程-使用随机森林进行缺失值填补

特征工程-使用随机森林进行缺失值填补