来自 libsvm 的 100% 准确度
Posted
技术标签:
【中文标题】来自 libsvm 的 100% 准确度【英文标题】:100% accuracy from libsvm 【发布时间】:2014-02-19 01:06:42 【问题描述】:我正在使用 libSVM(带有线性内核)训练和交叉验证(10 倍)数据。
数据包含 1800 个 fMRI 强度体素,表示为单个数据点。 svm-train 的训练集文件中有大约 88 个数据点。
训练集文件如下所示:
+1 1:0.9 2:-0.2 ... 1800:0.1
-1 1:0.6 2:0.9 ... 1800:-0.98
...
我还应该提到我正在使用 svm-train 脚本(与 libSVM 包一起提供)。
问题在于,在运行 svm-train 时 - 结果是 100% 准确度!
这似乎并不能反映真实的分类结果! 数据不是不平衡的,因为
#datapoints labeled +1 == #datpoints labeled -1
我还检查了缩放器(缩放正确),还尝试随机更改标签以查看它如何影响准确性 - 它从 100% 下降到 97.9%。
你能帮我理解这个问题吗? 如果是这样,我该怎么做才能解决它?
谢谢,
女星
【问题讨论】:
我认为没有问题。您的 SVM 可以轻松地为训练集提供 100% 的拟合,这非常好。这称为过度拟合en.wikipedia.org/wiki/Overfitting 我认为您需要阅读样本内和样本外的训练。 这个问题似乎跑题了,因为它是关于机器学习的。 如何阅读样本内和样本外的训练? 我的意思是阅读一些关于这个主题的文献 :) 这个问题太大了,无法概括为答案,有很多关于适当训练和交叉验证的研究。如果你不知道这意味着什么,这是你在进行任何编码之前需要知道的...... 嗨,所以基本上你认为如果我将体素强度从 1800 减少到更小的数量,可能会得到更好的结果,也许是通过选择正确的代表性体素? 【参考方案1】:确保在svmtrain
选项中包含'-v 10'
。我不确定您的 100% 准确度来自训练样本或验证样本。由于样本数比特征数少得多,因此很有可能获得 100% 的训练准确率。但如果你的模型存在过拟合,验证准确率可能会很低。
【讨论】:
感谢您的回答:) 我使用了 -v 10 选项。过度拟合可能是问题所在。不过,它应该会导致高结果吗? 有可能。我建议你缩小你感兴趣的区域,从而减少体素数量(特征),然后再次观察交叉验证结果。以上是关于来自 libsvm 的 100% 准确度的主要内容,如果未能解决你的问题,请参考以下文章