Accord.NET多类SVM分类Kernel如何解决Out of memory异常

Posted

技术标签:

【中文标题】Accord.NET多类SVM分类Kernel如何解决Out of memory异常【英文标题】:Accord.NET multiclass SVM classification Kernel how to solve Out of memory exception 【发布时间】:2015-07-14 09:58:13 【问题描述】:

我想使用 nursery data 训练 SVM(8 个属性和 5 个类),使用与 example 上相同的 C45 学习类逻辑:

例如,数据是从包含 8 个属性 "parents", "has_nurs", "form", "children", "housing", "finance", "social", "health" 的 Nursery 数据加载的 并且这些属性的组合导致 5 个类 "not_recom","recommend", "very_recom","priority","spec_prior"

但是我不知道 内核 最适合这种 SVM 数据。根据定义,多项式核是一个核函数,它表示特征空间中向量(训练样本)在原始变量多项式上的相似性,允许学习非线性模型。 我尝试使用此内核,但在使用数据训练机器时遇到问题。

到目前为止,我使用示例中显示的代码来训练 SVM,并使用了如下 svm 代码:​​

#//same code as C45 Example to get input and output data

string nurseryData = Resources.nursery;
string[] inputColumns =

“parents”, “has_nurs”, “form”, “children”,
“housing”, “finance”, “social”, “health”
;
string outputColumn = “output”;
DataTable table = new DataTable(“Nursery”);
table.Columns.Add(inputColumns);
table.Columns.Add(outputColumn);
string[] lines = nurseryData.Split(
new[]  Environment.NewLine , StringSplitOptions.None);
foreach (var line in lines)
     table.Rows.Add(line.Split(‘,’));
Codification codebook = new Codification(table);
DataTable symbols = codebook.Apply(table);
double[][] inputs = symbols.ToArray(inputColumns);
int[] outputs = symbols.ToArray(outputColumn);
int inputDimension = 8;
int outputClasses = 5;

#//SVM

IKernel kernel = new Polynomial(2, 5);
// Create the Multi-class Support Vector Machine using the selected Kernel
var ksvm = new MulticlassSupportVectorMachine(inputDimension, kernel, outputClasses);
// Create the learning algorithm using the machine and the training data
var ml = new MulticlassSupportVectorLearning(ksvm, inputs, outputs);
ml.Algorithm = (svm, classInputs, classOutputs, i, j) =>
        new SequentialMinimalOptimization(svm, classInputs, classOutputs);
double SVMerror = ml.Run();

但是我在训练机器时遇到错误,我错过了什么?

编辑

我现在有其他问题,尝试 Cesar 的代码我得到了这个

【问题讨论】:

错误发生在ml.Algorithm = (svm, classInputs, classOutputs, i, j) => new SequentialMinimalOptimization(svm, classInputs, classOutputs); 行,它抛出一个异常,excption 消息没有太大帮助,它只是说训练时发生错误,我调试代码并发现 i 和 j 值等于4. 是否存在包含更多信息的内部异常?请发布确切的消息,您可能认为它有帮助,但让帮助的人决定... 好的,我发现这是一个内存不足的异常,我该如何解决这个问题? (除了添加更多内存,因为我做不到) 简而言之,将您的 SequentialMinimalOptimization 对象的 CacheSize 属性设置为 1000 左右。请看一下框架常见问题解答中的第二个答案:accord-framework.net/faq.html 我会在几个中写一个正确的答案时刻。 好的,我去看看 【参考方案1】:

框架自动构建内核函数缓存,以帮助加快 SVM 学习期间的计算。但是,在某些情况下,此缓存可能会占用过多内存并导致 OutOfMemoryExceptions。

要在内存消耗和 CPU 速度之间取得平衡,请设置 CacheSize property to a lower value。默认是将所有输入向量存储在缓存中;将其设置为较低的值(例如训练样本数的 1/20)就足够了。

如果您将 CacheSize 设置为零,那么您将完全禁用缓存。训练可能会慢一些,但不会有任何记忆问题。请看下面的代码。我得到的结果错误大约是 0.09。

// same code to get input and output data
string nurseryData = Properties.Resources.nursery;

string[] inputColumns =

    "parents", "has_nurs", "form", "children",
    "housing", "finance", "social", "health"
;

string outputColumn = "output";

DataTable table = new DataTable("Nursery");
table.Columns.Add(inputColumns);
table.Columns.Add(outputColumn);

string[] lines = nurseryData.Split(
    new[]  Environment.NewLine , StringSplitOptions.None);

foreach (var line in lines)
    table.Rows.Add(line.Split(','));


Codification codebook = new Codification(table);

DataTable symbols = codebook.Apply(table);

double[][] inputs = symbols.ToArray(inputColumns);
int[] outputs = Matrix.ToArray<int>(symbols, outputColumn);

//SVM
IKernel kernel = new Linear();

// Create the Multi-class Support Vector Machine using the selected Kernel
int inputDimension = inputs[0].Length;
int outputClasses = codebook[outputColumn].Symbols;
var ksvm = new MulticlassSupportVectorMachine(inputDimension, kernel, outputClasses);

// Create the learning algorithm using the machine and the training data
var ml = new MulticlassSupportVectorLearning(ksvm, inputs, outputs)

    Algorithm = (svm, classInputs, classOutputs, i, j) =>
    
        return new SequentialMinimalOptimization(svm, classInputs, classOutputs)
        
            CacheSize = 0
        ;
    
;

double SVMerror = ml.Run(); // should be around 0.09

但是,我同意这可能不太明显。我将在修复版本中添加一种更好的方法来处理这种情况。感谢您发布您的问题!

【讨论】:

出现的一个问题是Linear Kernel的使用你为什么会选择它? 使用您发布的代码时出现的新问题,您能给一些建议吗? 哪个问题?你能提供更多细节吗?为简单起见,我选择了线性内核。在您尝试其他方法之前,它应该始终是您的首选。 我在问题上添加了一个编辑,异常建议使用其他内核(我使用你的代码使用线性内核) 您使用的是最新版本(v2.15)吗?如果没有,请尝试升级。

以上是关于Accord.NET多类SVM分类Kernel如何解决Out of memory异常的主要内容,如果未能解决你的问题,请参考以下文章

Encog中的多类SVM分类

在 CNN 提取特征之上使用 SVM - 如何进行多类分类?

SVM 多类文本分类

将SVM用于多类分类

如何使用朴素贝叶斯和主成分分析(C#、Accord.NET)对文档进行分类

如何在 R 中构建多类 SVM?