Python 中的支持向量机使用 libsvm 功能示例
Posted
技术标签:
【中文标题】Python 中的支持向量机使用 libsvm 功能示例【英文标题】:Support vector machine in Python using libsvm example of features 【发布时间】:2015-09-08 14:12:07 【问题描述】:我已经刮了很多这样的 ebay 标题:
Apple iPhone 5 White 16GB Dual-Core
我已经以这种方式手动标记了所有这些
B M C S NA
其中 B=品牌(Apple)M=型号(iPhone 5)C=颜色(白色)S=尺寸(尺寸)NA=未分配(双核)
现在我需要使用 python 中的 libsvm 库训练一个 SVM 分类器,以学习 ebay 标题中出现的序列模式。
我需要通过将问题视为分类问题来提取该属性(品牌、型号、颜色、尺寸)的新值。通过这种方式,我可以预测新模型。
我想考虑这个功能:
* Position
- from the beginning of the title
- to the end of the listing
* Orthographic features
- current word contains a digit
- current word is capitalized
....
我不明白如何将所有这些信息提供给图书馆。官方文档缺少很多信息
我的班级是品牌、型号、尺寸、颜色、NA
SVM 算法的输入文件必须包含什么?
如何创建它?考虑到我在问题中作为示例提出的 4 个功能,我可以举一个该文件的示例吗?我也可以提供一个我必须用来详细说明输入文件的代码示例吗?
* 更新 * 我想代表这些特征...我必须怎么做?
-
当前单词的标识
我觉得可以这样解读
0 --> Brand
1 --> Model
2 --> Color
3 --> Size
4 --> NA
如果我知道这个词是一个品牌,我会将该变量设置为 1(真)。 在训练测试中这样做是可以的(因为我已经标记了所有的单词)但是我怎样才能对测试集这样做呢?我不知道单词的类别是什么(这就是我学习它的原因:D)。
当前单词的 N-gram 子串特征 (N=4,5,6) 不知道,什么意思?
当前单词前 2 个单词的标识。 如何建模此功能?
考虑到我为第一个特征创建的图例,我有 5^(5) 个组合)
00 10 20 30 40
01 11 21 31 41
02 12 22 32 42
03 13 23 33 43
04 14 24 34 44
如何将其转换为 libsvm(或 scikit-learn)可以理解的格式?
-
4 个属性字典的成员
再次,我该怎么做? 拥有 4 个字典(用于颜色、尺寸、型号和品牌)我必须创建一个 bool 变量,当且仅当我在 4 个字典之一中匹配当前单词时才将其设置为 true。
-
品牌名称词典的独家会员
我认为就像在 4. 功能中一样,我必须使用 bool 变量。你同意吗?
【问题讨论】:
我建议你也看看sklearn。他们的 SVM 库更全面一些,文档也很好。 是的,我知道...但我需要一个与我的问题类似的示例:D 我不知道我是否遗漏了什么,但我会像多标签分类一样解决这个问题。虽然,我会遍历每个单词并询问我的分类器它认为该单词是什么 - 基于整个短语和短语中的位置。您还可以查看nltk 是否为您提供了更好的起点,但除非您正在构建新语法,否则它将需要与我在上面描述的相同的逐字分类器。希望这是有道理的! 【参考方案1】:我回应@MarcoPashkov 的评论,但会尝试详细说明 LibSVM 文件格式。我发现文档全面但很难找到,对于 Python 库,我推荐 README on GitHub。
要认识到的重要一点是,有一种稀疏格式,其中所有为 0 的特征都会被删除,而密集格式中,所有为 0 的特征都不会被删除。这两个是取自自述文件的等效示例。
# Dense data
>>> y, x = [1,-1], [[1,0,1], [-1,0,-1]]
# Sparse data
>>> y, x = [1,-1], [1:1, 3:1, 1:-1,3:-1]
y
变量存储数据所有类别的列表。
x
变量存储特征向量。
assert len(y) == len(x), "Both lists should be the same length"
Heart Scale Example 中的格式是一种稀疏格式,其中字典键是特征索引,字典值是特征值,而第一个值是类别。
将Bag of Words Representation 用作特征向量时,稀疏格式非常有用。
由于大多数文档通常会使用语料库中使用的单词的一个非常小的子集,因此生成的矩阵将具有许多为零的特征值(通常超过 99%)。
例如,包含 10,000 个短文本文档(例如电子邮件)的集合将使用总大小约为 100,000 个唯一单词的词汇表,而每个文档将单独使用 100 到 1000 个唯一单词。
对于使用您开始使用的特征向量的示例,我训练了一个基本的 LibSVM 3.20 模型。此代码并非旨在使用,但可能有助于展示如何创建和测试模型。
from collections import namedtuple
# Using namedtuples for descriptive purposes, in actual code a normal tuple would work fine.
Category = namedtuple("Category", ["index", "name"])
Feature = namedtuple("Feature", ["category_index", "distance_from_beginning", "distance_from_end", "contains_digit", "capitalized"])
# Separate up the set of categories, libsvm requires a numerical index so we associate each with an index.
categories = dict()
for index, name in enumerate("B M C S NA".split(' ')):
# LibSVM expects index to start at 1, not 0.
categories[name] = Category(index + 1, name)
categories
Out[0]: 'B': Category(index=1, name='B'),
'C': Category(index=3, name='C'),
'M': Category(index=2, name='M'),
'NA': Category(index=5, name='NA'),
'S': Category(index=4, name='S')
# Faked set of CSV input for example purposes.
csv_input_lines = """category_index,distance_from_beginning,distance_from_end,contains_digit,capitalized
B,1,10,1,0
M,10,1,0,1
C,2,3,0,1
S,23,2,0,0
NA,12,0,0,1""".split("\n")
# We just ignore the header.
header = csv_input_lines[0]
# A list of Feature namedtuples, this will be trained as lists.
features = list()
for line in csv_input_lines[1:]:
split_values = line.split(',')
# Create a Feature with the values converted to integers.
features.append(Feature(categories[split_values[0]].index, *map(int, split_values[1:])))
features
Out[1]: [Feature(category_index=1, distance_from_beginning=1, distance_from_end=10, contains_digit=1, capitalized=0),
Feature(category_index=2, distance_from_beginning=10, distance_from_end=1, contains_digit=0, capitalized=1),
Feature(category_index=3, distance_from_beginning=2, distance_from_end=3, contains_digit=0, capitalized=1),
Feature(category_index=4, distance_from_beginning=23, distance_from_end=2, contains_digit=0, capitalized=0),
Feature(category_index=5, distance_from_beginning=12, distance_from_end=0, contains_digit=0, capitalized=1)]
# Y is the category index used in training for each Feature. Now it is an array (order important) of all the trained indexes.
y = map(lambda f: f.category_index, features)
# X is the feature vector, for this we convert all the named tuple's values except the category which is at index 0.
x = map(lambda f: list(f)[1:], features)
from svmutil import svm_parameter, svm_problem, svm_train, svm_predict
# Barebones defaults for SVM
param = svm_parameter()
# The (Y,X) parameters should be the train dataset.
prob = svm_problem(y, x)
model=svm_train(prob, param)
# For actual accuracy checking, the (Y,X) parameters should be the test dataset.
p_labels, p_acc, p_vals = svm_predict(y, x, model)
Out[3]: Accuracy = 100% (5/5) (classification)
我希望这个示例对您有所帮助,它不应该用于您的培训。它只是作为一个例子,因为它效率低。
【讨论】:
感谢您的出色回答。这就是我要找的。感谢您的时间。我已经更新了我的问题,对建模某些功能有一些疑问......你能帮我以 libsvm 库可以理解的格式表示它们吗?谢谢【参考方案2】:这是一个分步指南,介绍了如何使用您的数据训练 SVM,然后使用相同的数据集进行评估。它也可以在http://nbviewer.ipython.org/gist/anonymous/2cf3b993aab10bf26d5f 获得。在 url 你还可以看到中间数据的输出和结果的准确性(它是一个iPython notebook)
步骤 0:安装依赖项
您需要安装以下库:
熊猫 scikit 学习从命令行:
pip install pandas
pip install scikit-learn
第 1 步:加载数据
我们将使用 pandas 来加载我们的数据。 pandas 是一个用于轻松加载数据的库。为了说明,我们先保存 采样数据到 csv 然后加载它。
我们将使用train.csv
训练SVM,并使用test.csv
获取测试标签
import pandas as pd
train_data_contents = """
class_label,distance_from_beginning,distance_from_end,contains_digit,capitalized
B,1,10,1,0
M,10,1,0,1
C,2,3,0,1
S,23,2,0,0
N,12,0,0,1"""
with open('train.csv', 'w') as output:
output.write(train_data_contents)
train_dataframe = pd.read_csv('train.csv')
第 2 步:处理数据
我们会将我们的数据帧转换为 numpy 数组,这是 scikit- 学懂了。
我们还需要将标签“B”、“M”、“C”...转换为数字,因为 svm 可以 不懂字符串。
然后我们将用数据训练一个线性支持向量机
import numpy as np
train_labels = train_dataframe.class_label
labels = list(set(train_labels))
train_labels = np.array([labels.index(x) for x in train_labels])
train_features = train_dataframe.iloc[:,1:]
train_features = np.array(train_features)
print "train labels: "
print train_labels
print
print "train features:"
print train_features
我们在这里看到train_labels
(5) 的长度与多少行完全匹配
我们有trainfeatures
。 train_labels
中的每一项对应一行。
第 3 步:训练 SVM
from sklearn import svm
classifier = svm.SVC()
classifier.fit(train_features, train_labels)
第 4 步:根据一些测试数据评估 SVM
test_data_contents = """
class_label,distance_from_beginning,distance_from_end,contains_digit,capitalized
B,1,10,1,0
M,10,1,0,1
C,2,3,0,1
S,23,2,0,0
N,12,0,0,1
"""
with open('test.csv', 'w') as output:
output.write(test_data_contents)
test_dataframe = pd.read_csv('test.csv')
test_labels = test_dataframe.class_label
labels = list(set(test_labels))
test_labels = np.array([labels.index(x) for x in test_labels])
test_features = test_dataframe.iloc[:,1:]
test_features = np.array(test_features)
results = classifier.predict(test_features)
num_correct = (results == test_labels).sum()
recall = num_correct / len(test_labels)
print "model accuracy (%): ", recall * 100, "%"
链接和提示
如何加载 LinearSVC 的示例代码:http://scikitlearn.org/stable/modules/svm.html#svm scikit-learn 示例的长列表:http://scikitlearn.org/stable/auto_examples/index.html。我发现这些有点帮助,但 经常让自己感到困惑。 如果您发现 SVM 需要很长时间来训练,请尝试使用 LinearSVC 相反:http://scikitlearn.org/stable/modules/generated/sklearn.svm.LinearSVC.html 这是另一个熟悉机器学习模型的教程:http://scikit-learn.org/stable/tutorial/basic/tutorial.html您应该能够使用此代码并将 train.csv
替换为您的训练数据,将 test.csv
替换为您的测试数据,并获得测试数据的预测以及准确度结果。
请注意,由于您使用的是经过训练的数据进行评估,因此准确度会异常高。
【讨论】:
感谢您的出色回答,也感谢您提供的链接和提示列表,非常感谢。 Scikit-learn 有一个很好的文档,你的例子似乎很容易理解。感谢您的时间。我已经更新了我的问题,对建模某些功能有一些疑问......你能帮我以 scikit 可以理解的格式表示它们吗?谢谢 我阅读了您问题的更新。您最初的问题是如何使用一组特征来训练 SVM,但您的更新现在提出了一个后续问题:如何从原始数据中提取特征。我对您可以做的事情有一些想法,但是我很难将其纳入我现有的答案中。我建议发布一个单独的问题,询问如何从原始数据中提取所需的特征。如果你把问题具体化,你更有可能得到一个好的答案。随时在此处发布新问题的链接,如果我有时间可以看看。 当然,对。非常感谢您的参与。 ***.com/questions/31104106/… 好的,我看了一下,稍后会尝试更详细的看。您可能会收到一些 cmets 要求您更具体一些,我认为这也将帮助您解决问题。您可能还想删除此问题的 Update 部分。但也许@erik-e 会提供一些额外的帮助,所以可能要等一天左右:-) 是的,抱歉,我在链接的问题中添加了更多信息!以上是关于Python 中的支持向量机使用 libsvm 功能示例的主要内容,如果未能解决你的问题,请参考以下文章