分类——当维度数大于样本数时,我们可以使用啥?

Posted

技术标签:

【中文标题】分类——当维度数大于样本数时,我们可以使用啥?【英文标题】:Classification - What can we use when the number of dimensions is greater than the number of samples?分类——当维度数大于样本数时,我们可以使用什么? 【发布时间】:2015-07-13 22:46:07 【问题描述】:

我在 scikit-learn 网站上读到,当维度数大于样本数时,SVM 是一个不错的选择。

我想知道你认为(作为有经验的用户)在这些要预测的类是二元的情况下更有效。

尤其是标注样本数在 50 左右时该怎么做。

应该工作的算法?需要关心的事情?

【问题讨论】:

当样本数量那么少时,我怀疑你能从中学到什么。 是的,我就是这么想的,样本数那么少怎么办?也许每次已知新样本时会更准确? 什么是维度?如果你对线性模型没问题,那么像 l1 惩罚 SVM 这样的稀疏线性模型可能会很好。 @AndreasMueller 对于每一行 (~50) 我有数千个数值。目标是二进制(0 或 1)。我想我必须做一些降维,因为我有两个很多特征。我也想知道标志列,如果我添加它们会有所帮助。 我的错,我没有数千个特征,只有 100 个。我认为最好是预测。 【参考方案1】:

如果你有密集的数据,并且 n

这并不意味着它不起作用,只是你在评估你的方法时必须格外小心,因为过度拟合的风险很高。

一次只使用一个维度的方法(例如决策树)可能受到的影响较小。特别是,如果您将修剪技术应用于您的树。

【讨论】:

是像 1.4102 这样的数字数据。如果每个特征都有独特的价值怎么办?

以上是关于分类——当维度数大于样本数时,我们可以使用啥?的主要内容,如果未能解决你的问题,请参考以下文章

sklearn之svm-葡糖酒质量预测

SVM

SVM:VC维度和内核维度数之间的关系

对抗子空间维度探讨

[翻译]处理样本不均衡的8个方法

机器学习---算法---K-近邻算法