在支持向量机中获取可分离数据的特征空间维度
Posted
技术标签:
【中文标题】在支持向量机中获取可分离数据的特征空间维度【英文标题】:Dimension of Feature Space to get separable Data in support vector machines 【发布时间】:2014-04-01 13:02:39 【问题描述】:我只是准备了一些关于支持向量机的论文。 众所周知,内核技巧使我们能够将数据从输入空间隐式转换到某些(可能是无限维的)特征空间。
作为一个简短的参考,您可以使用 克里斯蒂亚尼尼,尼洛; Shawe-Taylor, John:支持向量机和其他基于内核的学习方法简介。剑桥:剑桥大学出版社,2000 年。
既然我们不知道相应的特征图,我想知道当我们使用内核时是否有关于特征空间维度的任何估计。 如果有任何结果,我会特别感兴趣,说明数据何时在结果特征空间中是线性可分的。 也许有人知道一些(最近的)关于这个话题的论文。我真的很感兴趣!
【问题讨论】:
可能属于Cross Validated 【参考方案1】:有你可能感兴趣的论文:Chen et al. On linear separability of data sets in feature space
作者推导出公式,通过原始输入空间中的信息来判断特征空间中两个无限数据集的线性可分性。他们得出结论,在原始输入空间中具有空重叠的任何两个有限数据集将在无限维特征空间中成为线性可分的。对于两个无限大的数据集,还得到了它们在特征空间中线性可分的几个充要条件。
【讨论】:
这是我搜索的内容。优秀!!非常感谢!【参考方案2】:有 2 种方法:hard- 和 soft-margin SVM。您可以在this question 中阅读两者的详细说明,但简而言之,只有硬边距 SVM 需要数据完全可分离。另一方面,软边距 SVM 允许一定比例的错误标记数据,但仍然表现得非常好(通常甚至更好)。鉴于此,您无需检查数据的线性可分性。相反,您可以只使用分类器参数并运行交叉验证来衡量准确性。
【讨论】:
我知道。我应该在我最初的帖子中添加这个事实。我想要一个标准来说明数据点(属于两个不同的类)何时可以由特征空间中的硬边距 SVM 线性分隔。当然,这仅从理论的角度来看是有趣的,因为它可能会过度拟合模型。 lennon310 的答案很合适。谢谢大家!以上是关于在支持向量机中获取可分离数据的特征空间维度的主要内容,如果未能解决你的问题,请参考以下文章