目标的缩放导致 Scikit-learn SVM 回归崩溃

Posted

技术标签:

【中文标题】目标的缩放导致 Scikit-learn SVM 回归崩溃【英文标题】:Scaling of target causes Scikit-learn SVM regression to break down 【发布时间】:2014-10-24 23:06:12 【问题描述】:

在训练 SVM 回归时,通常建议在训练之前缩放输入特征。

但是如何缩放目标呢?通常这不被认为是必要的,我看不出有必要这样做的充分理由。

然而,在 scikit-learn 的 SVM 回归示例中,来自: http://scikit-learn.org/stable/auto_examples/svm/plot_svm_regression.html

通过在训练前引入 y=y/1000 行,预测将分解为一个恒定值。在训练之前缩放目标变量可以解决问题,但我不明白为什么有必要。

是什么导致了这个问题?

import numpy as np
from sklearn.svm import SVR
import matplotlib.pyplot as plt

# Generate sample data
X = np.sort(5 * np.random.rand(40, 1), axis=0)
y = np.sin(X).ravel()

# Add noise to targets
y[::5] += 3 * (0.5 - np.random.rand(8))

# Added line: this will make the prediction break down
y=y/1000

# Fit regression model
svr_rbf = SVR(kernel='rbf', C=1e3, gamma=0.1)
svr_lin = SVR(kernel='linear', C=1e3)
svr_poly = SVR(kernel='poly', C=1e3, degree=2)
y_rbf = svr_rbf.fit(X, y).predict(X)
y_lin = svr_lin.fit(X, y).predict(X)
y_poly = svr_poly.fit(X, y).predict(X)

# look at the results
plt.scatter(X, y, c='k', label='data')
plt.hold('on')
plt.plot(X, y_rbf, c='g', label='RBF model')
plt.plot(X, y_lin, c='r', label='Linear model')
plt.plot(X, y_poly, c='b', label='Polynomial model')
plt.xlabel('data')
plt.ylabel('target')
plt.title('Support Vector Regression')
plt.legend()
plt.show()

【问题讨论】:

【参考方案1】:

支持向量回归使用的损失函数只有在预测值和目标之间的差异超过某个阈值时才为正。低于阈值,预测被认为“足够好”,损失为零。当您缩小目标时,SVM 学习器可以返回一个平面模型,因为它不再产生任何损失。

阈值参数在sklearn.svm.SVR中调用epsilon;对于较小的目标,将其设置为较低的值。这背后的数学解释here。

【讨论】:

就是这样,谢谢你的回答。因此,对于通用模型,选项是缩放目标,或者在我的网格搜索中包含 epsilon。你有什么更有意义的建议吗? @user1774143 网格搜索右边的epsilon。缩放y 是等效的,但容易出错。

以上是关于目标的缩放导致 Scikit-learn SVM 回归崩溃的主要内容,如果未能解决你的问题,请参考以下文章

为啥缩放训练和测试数据后我的 SVM 的性能会下降?

在 scikit-learn 中拟合分类器之前进行特征缩放的必要性

保存 scikit-learn 分类器会导致内存错误

将经过训练的 SVM 从 scikit-learn 导入到 OpenCV

使用 scikit-learn 重新拟合 SVM

如何获得 scikit-learn SVM 分类器的所有 alpha 值?