自变量是不是需要单独进行特征缩放?
Posted
技术标签:
【中文标题】自变量是不是需要单独进行特征缩放?【英文标题】:Does feature scaling need to be done separately for independent variables?自变量是否需要单独进行特征缩放? 【发布时间】:2021-08-03 10:10:20 【问题描述】:我目前正在上 Udemy 课程,SVR 课程的讲师说必须对 X 和 y 分别应用特征缩放,因为它们的标准差和均值不同。以下是代码和数据集的截图。 X 是级别,y 是薪水。 code for feature scaling
dataset for SVR class
对于数据预处理课,讲师使用了不同的数据集,数据集由1个以上的自变量组成。但是,如代码所示,他并没有独立地对它们进行缩放。我对这部分感到困惑,因为所有自变量都有不同的标准差和均值。那么为什么我们不单独对它们进行特征缩放呢? 以下是代码和数据集 code
dataset for pre-processing class
顺便说一句,这段代码是由 Kirill Eremenko 编写的
【问题讨论】:
请以文字而非图片的形式分享您的内容。没有人想从图像中编写代码,以防他们想测试它!!! 【参考方案1】:特征缩放基本上有助于规范化特定范围内的数据。通常几种常见的类类型包含特征缩放功能,以便它们自动进行特征缩放。但是 SVR 类不是常用的类类型,所以我们应该进行特征缩放。
缩放输入有助于避免出现这样的情况,即当一个或多个特征在量级上占主导地位时,模型很难吸收较小规模变量的贡献,即使它们很强大。
StandardScaler 背后的想法是,它将转换您的数据,使其分布的平均值为 0,标准差为 1。 在多变量数据的情况下,这是按特征完成的(换句话说,对于数据的每一列都是独立的)。 给定数据的分布,数据集中的每个值都会减去平均值,然后除以整个数据集(或多变量情况下的特征)的标准差。
如果我们不单独进行缩放,因变量的分布/大小可能会受到影响。将依赖和独立特征分别归一化通常是常见的做法。
【讨论】:
以上是关于自变量是不是需要单独进行特征缩放?的主要内容,如果未能解决你的问题,请参考以下文章
R使用dplyr包对变量特征进行标准化(standardize)缩放操作
Logistics Regression & SVC:如果特征是 BOW、tf-idf 或 doc2Vec,我们是不是需要进行缩放?