使用 Python/Numpy 的 dlib SVM 的最小示例

Posted

技术标签:

【中文标题】使用 Python/Numpy 的 dlib SVM 的最小示例【英文标题】:Minimal Example for dlib SVM using Python/Numpy 【发布时间】:2018-03-30 03:56:03 【问题描述】:

我需要在 C++ 构建目标系统中部署 SVM。因此,我想使用带有 python/numpy 的 dlib 训练一个 SVM,对其进行序列化并在目标系统中进行评估。

dlib 的 python 文档对我来说相当晦涩难懂,所以谁能帮助我这个最小的例子?

import dlib

# My data in numpy
feature_column_1 = np.array([-1, -2, -3, 1, 2, 3])
feature_column_2 = np.array([1, 2, 3, -1, -2, -3])
labels = np.array([True, True, True, False, False, False])

# Features
feature_vectors = dlib.vectors()
for feature_column in [feature_column_1, feature_column_2]:
    feature_vectors.append(dlib.vector(feature_column.tolist()))

# Labels
labels_array = dlib.array(labels.tolist())

# Train
svm = dlib.svm_c_trainer_linear()
svm.train(feature_vectors, labels_array)

# Test
y_probibilities = svm.predict(labels_array_new)

我收到以下培训错误:

---> 18 svm.train(vectors, array)

ValueError: Invalid inputs

【问题讨论】:

【参考方案1】:

我刚刚在 dlib 中添加了一个官方示例。当我查看时,我很惊讶地发现它不包括在内。可在此处获得:https://github.com/davisking/dlib/blob/master/python_examples/svm_binary_classifier.py。以下是相关细节:

import dlib
import pickle    

x = dlib.vectors()
y = dlib.array()

# Make a training dataset.  Here we have just two training examples.  Normally
# you would use a much larger training dataset, but for the purpose of example
# this is plenty.  For binary classification, the y labels should all be either +1 or -1.
x.append(dlib.vector([1, 2, 3, -1, -2, -3]))
y.append(+1)

x.append(dlib.vector([-1, -2, -3, 1, 2, 3]))
y.append(-1)


# Now make a training object.  This object is responsible for turning a
# training dataset into a prediction model.  This one here is a SVM trainer
# that uses a linear kernel.  If you wanted to use a RBF kernel or histogram
# intersection kernel you could change it to one of these lines:
#  svm = dlib.svm_c_trainer_histogram_intersection()
#  svm = dlib.svm_c_trainer_radial_basis()
svm = dlib.svm_c_trainer_linear()
svm.be_verbose()
svm.set_c(10)

# Now train the model.  The return value is the trained model capable of making predictions.
classifier = svm.train(x, y)

# Now run the model on our data and look at the results.
print("prediction for first sample:  ".format(classifier(x[0])))
print("prediction for second sample: ".format(classifier(x[1])))


# classifier models can also be pickled in the same was as any other python object.
with open('saved_model.pickle', 'wb') as handle:
    pickle.dump(classifier, handle)

但是,如果您想使用 C++,您应该只使用 C++。 Dlib 主要是一个 C++ 库而不是 python 库。 dlib 的全部意义在于为想要进行机器学习的人们提供一个不错的 C++ API。因此,仅使用 C++ 进行培训会更好。 dlib 附带了 99 个完整的 C++ 示例和完整的 C++ API 文档。例如,这里是一个相关的例子http://dlib.net/svm_c_ex.cpp.html

我真的应该强调,dlib 的 C++ API 比 python API 灵活得多。确实,dlib 的目的是让 C++ 中的机器学习变得容易,dlib 的 python API 是事后才想到的。事实上,dlib 的许多特性是使用 C++ 模板之类的东西来表达的,而这些东西在 Python 中是不可能相关的(例如,因为 python 没有像 C++ 模板那样的东西),所以这些特性不会暴露给 python。所以说真的,如果你想使用 C++,那就使用 C++。 如果您知道如何编写 C++,就没有理由使用 Python API

【讨论】:

有编辑吗? *** 没有显示任何编辑:/ 他确实提出了一个,考虑到他的代表,需要其他用户接受。我拒绝了。当前状态:仅您的编辑,如果我解释正确,他将其删除(不再投票)! @sascha,好吧。此外,只是在详细启用上有错误的语法。今天早上很着急:/ 糟糕...我确实再次误读了docs(像你一样使用它;仍然发现这种方式更常见)。所以我确信冗长不会根据任务做任何事情,但我只是用错了。现在一切都很酷。 按照您的建议,我现在用 C++ 实现了我的管道,现在遇到了以下问题:***.com/questions/46910328/how-to-use-dlibs-lda 很高兴得到提示!【参考方案2】:

不是一个完整的答案,而是一些评论:

(1)

您观察到的错误至少部分是由于检查here。

    for (long r = 0; r < x_labels.nr(); ++r)
    
        if (x_labels(r) != -1 && x_labels(r) != 1)
            return false;

意思是:labels = np.array([True, True, True, False, False, False])是错误的,而labels = np.array([1, 1, 1, -1, -1, -1])是正确的。

(2)

通常,在大多数 MLlib 中,数据格式为 (n_samples, n_features),其中行是观察值。

当打印出您的特征向量时,这看起来是正确的,但是您的代码,在 (1) 的更改之后仍然会抛出相同的错误,除非您将其视为相反:所以另一种解释是:你有 2 个样本,每个样本有 6 个特征。使用这个假设,y 需要有 2 个值。等等……至少这是训练!

没有抛出错误的代码(我忽略了它真正在做什么)

import dlib
import numpy as np

# My data in numpy
feature_column_1 = np.array([-1, -2, -3, 1, 2, 3])
feature_column_2 = np.array([1, 2, 3, -1, -2, -3])
labels = np.array([-1, 1])  # +1/-1 & size == 2

# Features
feature_vectors = dlib.vectors()
for feature_column in [feature_column_1, feature_column_2]:
    feature_vectors.append(dlib.vector(feature_column.tolist()))

# Labels
labels_array = dlib.array(labels.tolist())

# Train
svm = dlib.svm_c_trainer_linear()
svm.be_verbose = 10

svm.train(feature_vectors, labels_array)
print('k')

(3)

dlib 的 python-API 没有predict() 函数。 C++-API 有一些用于预测的learned_function 属性,但this 和this 表示您必须自己执行此操作(可能使用c_class1 和co。因为我无法将其他任何东西映射到可用的东西API-doc 的候选者)。

编辑:我的预测是错误的,正如 dlib 的维护者/开发者在 cmets 中提到的那样!

我真的很不喜欢这种状态,我会用别的东西! (或改进 dlib).

不确定如何解释您的环境约束,但是:

libsvm / liblinear 仍然是此类任务的最新技术,它们是为使用 C++ 而构建的! 和sklearn 是迄今为止从 python 中最好的方法(内部使用上面的库)

【讨论】:

当然dlib的python api有“预测功能”。你这样做: df = svm.train(feature_vectors, labels_array);预测 = df(feature_vectors[0]); @DavisKing 对不起。作为非重度用户,我对 pythonAPI、(struct-SVM)python-example 和 C++-API 的执行方式感到困惑。也许您也应该为经典 SVM 添加一个简单的 python 示例。不错的库! 是的,我将添加这个示例。现在明显不见了:) 另外,dlib 主要用于 C++,并且有大量的 C++ 示例(例如dlib.net/svm_c_ex.cpp.html)。无需使用 liblinear,它的 API 记录不完善。 dlib 中的 SVM 代码已有近 10 年的历史,也被很多人使用。所以我不担心健壮性。至于名字,是的,名字很有趣。这是因为 C++ 中的培训师是模板化的。所以你可以有 svm_c_trainer 或 svm_c_linear_trainer 或 svm_c_trainer 或其他。 python 名称试图反映类和内核选择的组合。【参考方案3】:

当我将你的 for 循环更改为这个时(我没有 dlib):

for feature_column in [feature_column_1, feature_column_2]:
    print(feature_column.tolist())

我得到这个结果

[-1, -2, -3, 1, 2, 3]
[1, 2, 3, -1, -2, -3]

我想你的数据应该如下所示:

[-1, 1]
[-2, 2]
[-2, 2]
[1, -1]
[2, -2]
[3, -3]

你可以用这段代码得到什么:

features = [[-1,1],[-2,2],[-2,2],[1,-1],[2,-2],[3,-3]]
for feature in features:
    feature_vectors.append(dlib.vector(feature_column.tolist()))

【讨论】:

几乎,我也不得不使用 -1 或 +1 作为标签。在列表上调用 .tolist() 会出错。

以上是关于使用 Python/Numpy 的 dlib SVM 的最小示例的主要内容,如果未能解决你的问题,请参考以下文章

dlib库包的介绍与使用,opencv+dlib检测人脸框opencv+dlib进行人脸68关键点检测,opencv+dlib实现人脸识别,dlib进行人脸特征聚类dlib视频目标跟踪

dlib 不使用 CUDA

Python NumPy的使用

(Python)numpy 常用操作

dlib 加载 jpeg 文件

使用 Cmake 创建一个依赖于 dlib 的共享库