如何在 python 中的 SVM sklearn 数据中绘制决策边界?
Posted
技术标签:
【中文标题】如何在 python 中的 SVM sklearn 数据中绘制决策边界?【英文标题】:How to draw decision boundary in SVM sklearn data in python? 【发布时间】:2017-10-02 08:49:06 【问题描述】:我正在从训练集中读取电子邮件数据并创建 train_matrix、train_labels 和 test_labels。现在如何在 python 中使用 matplot 显示决策边界。我正在使用 sklearn 的 svm。有通过 iris 预先给定数据集的在线示例。但是在自定义数据上绘图失败。这是我的代码
错误:
Traceback (most recent call last):
File "classifier-plot.py", line 115, in <module>
Z = Z.reshape(xx.shape)
ValueError: cannot reshape array of size 260 into shape (150,1750)
代码:
import os
import numpy as np
from collections import Counter
from sklearn import svm
import matplotlib
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
def make_Dictionary(root_dir):
all_words = []
emails = [os.path.join(root_dir,f) for f in os.listdir(root_dir)]
for mail in emails:
with open(mail) as m:
for line in m:
words = line.split()
all_words += words
dictionary = Counter(all_words)
list_to_remove = dictionary.keys()
for item in list_to_remove:
if item.isalpha() == False:
del dictionary[item]
elif len(item) == 1:
del dictionary[item]
dictionary = dictionary.most_common(3000)
return dictionary
def extract_features(mail_dir):
files = [os.path.join(mail_dir,fi) for fi in os.listdir(mail_dir)]
features_matrix = np.zeros((len(files),3000))
train_labels = np.zeros(len(files))
count = 0;
docID = 0;
for fil in files:
with open(fil) as fi:
for i,line in enumerate(fi):
if i == 2:
words = line.split()
for word in words:
wordID = 0
for i,d in enumerate(dictionary):
if d[0] == word:
wordID = i
features_matrix[docID,wordID] = words.count(word)
train_labels[docID] = 0;
filepathTokens = fil.split('/')
lastToken = filepathTokens[len(filepathTokens) - 1]
if lastToken.startswith("spmsg"):
train_labels[docID] = 1;
count = count + 1
docID = docID + 1
return features_matrix, train_labels
TRAIN_DIR = "../train-mails"
TEST_DIR = "../test-mails"
dictionary = make_Dictionary(TRAIN_DIR)
print "reading and processing emails from file."
features_matrix, labels = extract_features(TRAIN_DIR)
test_feature_matrix, test_labels = extract_features(TEST_DIR)
model = svm.SVC(kernel="rbf", C=10000)
print "Training model."
features_matrix = features_matrix[:len(features_matrix)/10]
labels = labels[:len(labels)/10]
#train model
model.fit(features_matrix, labels)
predicted_labels = model.predict(test_feature_matrix)
print "FINISHED classifying. accuracy score : "
print accuracy_score(test_labels, predicted_labels)
##----------------
h = .02 # step size in the mesh
# we create an instance of SVM and fit out data. We do not scale our
# data since we want to plot the support vectors
C = 1.0 # SVM regularization parameter
X = features_matrix
y = labels
svc = model.fit(X, y)
#svm.SVC(kernel='linear', C=C).fit(X, y)
# create a mesh to plot in
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = y[:].min() - 1, y[:].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
# title for the plots
titles = ['SVC with linear kernel']
Z = predicted_labels#svc.predict(np.c_[xx.ravel(), yy.ravel()])
# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)
# Plot also the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.xticks(())
plt.yticks(())
plt.title(titles[0])
plt.show()
【问题讨论】:
添加了绘图命令和错误回溯。 你在学习任何教程吗?如果是,请在此处链接。 绘图代码似乎基于 scikit-learn 文档scikit-learn.org/stable/auto_examples/svm/plot_iris.html 您遵循的示例使用维度 2 的特征向量。您有维度 3000 的特征向量。这不太适合。 【参考方案1】:在您关注的tutorial 中,Z
是通过将分类器应用于生成的一组特征向量来计算的,以形成一个规则的NxM
网格。这使得情节顺利。
当你更换时
Z = svc.predict(np.c_[xx.ravel(), yy.ravel()])
与
Z = predicted_labels
您将这个常规网格替换为对数据集进行的预测。下一行因错误而失败,因为它无法将大小为 len(files)
的数组重塑为 NxM
矩阵。没有理由len(files) = NxM
。
您无法直接按照教程进行操作是有原因的。您的数据维度是 3000,因此您的决策边界将是 3000 维空间中的 2999 维超平面。这并不容易形象化。
在教程中,维度是 4,为了可视化,它被减少到 2。 减少数据维度的最佳方法取决于数据。在本教程中,我们只选择 4 维向量的前两个分量。
另一个在很多情况下效果很好的选择是使用主成分分析来减少数据的维度。
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)
pca.fit(features_matrix, labels)
reduced_matrix = pca.fit_transform(features_matrix, labels)
model.fit(reduced_matrix, labels)
此类模型可用于 2D 可视化。您可以直接按照教程进行定义
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
一个完整但不是很令人印象深刻的例子
我们无权访问您的电子邮件数据,因此为了说明,我们可以使用随机数据。
from sklearn import svm
from sklearn.decomposition import PCA
# initialize algorithms and data with random
model = svm.SVC(gamma=0.001,C=100.0)
pca = PCA(n_components = 2)
rng = np.random.RandomState(0)
U = rng.rand(200, 2000)
v = (rng.rand(200)*2).astype('int')
pca.fit(U,v)
U2 = pca.fit_transform(U,v)
model.fit(U2,v)
# generate grid for plotting
h = 0.2
x_min, x_max = U2[:,0].min() - 1, U2[:, 0].max() + 1
y_min, y_max = U2[:,1].min() - 1, U2[:, 1].max() + 1
xx, yy = np.meshgrid(
np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
# create decision boundary plot
Z = s.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
contourf(xx,yy,Z,cmap=plt.cm.coolwarm, alpha=0.8)
scatter(U2[:,0],U2[:,1],c=v)
show()
会产生一个看起来不太令人印象深刻的决策边界。
确实,前两个主要成分只捕获了数据中包含的信息的大约 1%
>>> print(pca.explained_variance_ratio_)
[ 0.00841935 0.00831764]
如果你现在只引入一点精心伪装的不对称,你已经看到了效果。
修改数据以仅在为每个特征随机选择的一个坐标处引入移位
random_shifts = (rng.rand(2000)*200).astype('int')
for i in range(MM):
if v[i] == 1:
U[i,random_shifts[i]] += 5.0
应用 PCA,您将获得更多信息。
请注意,这里前两个主成分已经解释了大约 5% 的方差,并且图片的红色部分包含的红色点比蓝色点多得多。
【讨论】:
你能看看这个问题***.com/q/50334915/2508414以上是关于如何在 python 中的 SVM sklearn 数据中绘制决策边界?的主要内容,如果未能解决你的问题,请参考以下文章
sklearn SVM,Python2 与 Python3 中的不同精度