属性的特征缩放
Posted
技术标签:
【中文标题】属性的特征缩放【英文标题】:Feature Scaling of attributes 【发布时间】:2020-04-21 16:36:54 【问题描述】:我使用两个特征来训练分类模型,即特征 A 和 B。特征 A 比特征 B 更重要。特征 A 具有序数数据,因此我对其进行了标签编码,其值范围为 1 到 5。特征 B也是一个分类特征,在标签编码后对其进行热编码
由于上述编码,特征 A 的值范围为 1 到 5,而特征 B 有多个列,每列的值为 0 或 1。
现在在我的模型训练之后,我的模型过于偏向于特征 A,因为它的值范围从 1 到 5,而对特征 B 的关注却很少。
现在,如果我使用标准标量进行特征缩放,特征 A 的值将在 -1 到 1 之间,因此在模型训练之后,特征 B 比特征 A 具有更多的作用来做出决定。
有没有更好的方法来对两个特征进行特征缩放,以便特征 A 具有更多优势,但又不是完全忽略特征 B
【问题讨论】:
【参考方案1】:一旦您进行了一次热编码,您将只拥有一组功能。模型不会知道特征属于 A 还是 B。然后您可以计算特征重要性或运行 Feature Selection Algorithms 以提高效率。
但是,如果您觉得功能 A 更重要,那么请尝试缩放到除 -1 到 1 之外的其他限制,以便为功能 A 维护比功能 B 更多的列。或者相应地缩放两者。但同样,该模型仅将其视为一组特征,因此请尝试更改模型/参数,而不是专注于此以提高性能。
【讨论】:
以上是关于属性的特征缩放的主要内容,如果未能解决你的问题,请参考以下文章
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)