属性的特征缩放

Posted

技术标签:

【中文标题】属性的特征缩放【英文标题】:Feature Scaling of attributes 【发布时间】:2020-04-21 16:36:54 【问题描述】:

我使用两个特征来训练分类模型,即特征 A 和 B。特征 A 比特征 B 更重要。特征 A 具有序数数据,因此我对其进行了标签编码,其值范围为 1 到 5。特征 B也是一个分类特征,在标签编码后对其进行热编码

由于上述编码,特征 A 的值范围为 1 到 5,而特征 B 有多个列,每列的值为 0 或 1。

现在在我的模型训练之后,我的模型过于偏向于特征 A,因为它的值范围从 1 到 5,而对特征 B 的关注却很少。

现在,如果我使用标准标量进行特征缩放,特征 A 的值将在 -1 到 1 之间,因此在模型训练之后,特征 B 比特征 A 具有更多的作用来做出决定。

有没有更好的方法来对两个特征进行特征缩放,以便特征 A 具有更多优势,但又不是完全忽略特征 B

【问题讨论】:

【参考方案1】:

一旦您进行了一次热编码,您将只拥有一组功能。模型不会知道特征属于 A 还是 B。然后您可以计算特征重要性或运行 Feature Selection Algorithms 以提高效率。

但是,如果您觉得功能 A 更重要,那么请尝试缩放到除 -1 到 1 之外的其他限制,以便为功能 A 维护比功能 B 更多的列。或者相应地缩放两者。但同样,该模型仅将其视为一组特征,因此请尝试更改模型/参数,而不是专注于此以提高性能。

【讨论】:

以上是关于属性的特征缩放的主要内容,如果未能解决你的问题,请参考以下文章

机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

机器学习特征工程之特征缩放+无量纲化:非线性缩放(例如,sigmoidtanharctan等)

特征缩放后重新缩放,线性回归

对不同的特征使用不同的特征缩放技术是不是正确?

机器学习中的特征缩放(feature scaling)