使用 Python 的字符串子序列内核和 SVM
Posted
技术标签:
【中文标题】使用 Python 的字符串子序列内核和 SVM【英文标题】:String Subsequence Kernel and SVM using Python 【发布时间】:2014-03-07 16:02:12 【问题描述】:如何使用子序列字符串内核 (SSK) [Lodhi 2002] 在 Python 中训练 SVM(支持向量机)?
【问题讨论】:
【参考方案1】:我找到了使用 Shogun Library 的解决方案。您必须从提交 0891f5a38bcb 安装它,因为以后的修订会错误地删除所需的类。
这是一个工作示例:
from shogun.Features import *
from shogun.Kernel import *
from shogun.Classifier import *
from shogun.Evaluation import *
from modshogun import StringCharFeatures, RAWBYTE
from shogun.Kernel import SSKStringKernel
strings = ['cat', 'doom', 'car', 'boom']
test = ['bat', 'soon']
train_labels = numpy.array([1, -1, 1, -1])
test_labels = numpy.array([1, -1])
features = StringCharFeatures(strings, RAWBYTE)
test_features = StringCharFeatures(test, RAWBYTE)
# 1 is n and 0.5 is lambda as described in Lodhi 2002
sk = SSKStringKernel(features, features, 1, 0.5)
# Train the Support Vector Machine
labels = BinaryLabels(train_labels)
C = 1.0
svm = LibSVM(C, sk, labels)
svm.train()
# Prediction
predicted_labels = svm.apply(test_features).get_labels()
print predicted_labels
【讨论】:
【参考方案2】:最近,字符串子序列内核 (SSK) [Lodhi.等。 al., 2002] 已添加到Shogun Machine Learning toolbox 中,可用于包括 Python 在内的所有模块化接口。您可以找到一个使用此内核解决 DNA 分类问题的工作示例here,使用 LibSVM。
【讨论】:
我已经能够运行此示例,但是当尝试使用更改 n 参数和衰减参数的其他数据运行时,我总是从经过训练的 SVM 获得相同的准确度。这怎么可能?【参考方案3】:这是对gcedo's answer 的更新,可与当前版本的 shogun (Shogun 6.1.3) 一起使用。
工作示例:
import numpy as np
from shogun import StringCharFeatures, RAWBYTE
from shogun import BinaryLabels
from shogun import SubsequenceStringKernel
from shogun import LibSVM
strings = ['cat', 'doom', 'car', 'boom','caboom','cartoon','cart']
test = ['bat', 'soon', 'it is your doom', 'i love your cat cart','i love loonytoons']
train_labels = np.array([1, -1, 1, -1,-1,-1,1])
test_labels = np.array([1, -1, -1, 1])
features = StringCharFeatures(strings, RAWBYTE)
test_features = StringCharFeatures(test, RAWBYTE)
# 1 is n and 0.5 is lambda as described in Lodhi 2002
sk = SubsequenceStringKernel(features, features, 3, 0.5)
# Train the Support Vector Machine
labels = BinaryLabels(train_labels)
C = 1.0
svm = LibSVM(C, sk, labels)
svm.train()
# Prediction
predicted_labels = svm.apply(test_features).get_labels()
print(predicted_labels)
【讨论】:
【参考方案4】:为了将来参考,当前版本的 Shogun (3.2.0) 中的内核名称为 StringSubsequenceKernel。
来源:https://code.google.com/p/shogun-toolbox/source/browse/src/shogun/kernel/string/StringSubsequenceKernel.h
【讨论】:
以上是关于使用 Python 的字符串子序列内核和 SVM的主要内容,如果未能解决你的问题,请参考以下文章