连续数值特征离散化

Posted chenb

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了连续数值特征离散化相关的知识,希望对你有一定的参考价值。

特征工程中 很常见的一步,特征离散化。最优离散化问题是一个 NP-hard问题。所以所谓的离散化方法只是某种启发式,某种情况下及考量下最优的方法。

好处

1. 减少连续特征的个数,减少存储空间大小

2. 更容易被接受。人更容易接受离散的范围,而不是准确的数值。也就是更容易理解,使用和解释

3. 离散化使得部门算法更准确和迅速

4. 有些算法只能应用于离散型数据

5. 降低过拟合

一般流程

1. 排序。数据一大,一般排序有利于提高速度和降低复杂度

2. 选择某些点作为候选点。用所选的具体方法作为衡量这个候选点是否满足要求

3. 可能接下来就进入分裂和合并,选择下一个候选点。

4. 停止条件

常见算法

 

以上是关于连续数值特征离散化的主要内容,如果未能解决你的问题,请参考以下文章

机器学习处理数据为什么把连续性特征离散化,离散化有何好处?

机器学习处理数据为什么把连续性特征离散化,离散化有何好处?

将连续型特征离散化的需要 or 优势

特征离散化的意义

机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

机器学习特征工程之连续变量离散化:等频分箱