当我们添加多项式特征时,损失函数是不是变得非凸?

Posted

技术标签:

【中文标题】当我们添加多项式特征时,损失函数是不是变得非凸?【英文标题】:Does loss function becomes non convex when we add polynomial features?当我们添加多项式特征时,损失函数是否变得非凸? 【发布时间】:2020-11-06 12:17:08 【问题描述】:

当我们在多项式回归、逻辑回归、svm 的情况下使用多项式特征时,损失函数是否变得非凸?

【问题讨论】:

【参考方案1】:

如果您尝试估计的任何X -> y 选择的损失函数都是凸的,那么添加一组固定多项式特征不会改变这一点。您只是将初始问题与估计问题X' -> y 交换,其中X' 具有附加功能。

如果您还尝试估计新特征的参数,那么在这些维度上很容易得到非凸损失(假设有参数可供选择——如果您只是在谈论添加多项式基础则不适用)。

作为某种证明措施,以一维估计问题为例并选择特征f(x) = (x-a)^3。假设您的数据集具有单点 (0, 0)。通过一些工作,您可以证明即使对于新特征的线性回归,损失在参数a 的某些地方也是非凸的。请注意,对于新特征,损失仍然是凸的——标准线性回归总是满足该属性——事实上,我们使用线性回归和多项式的选择来构建一个新的非凸回归器,导致这种行为.

【讨论】:

With a little work you can show that the loss even for linear regression is non-convex, linear regression - loss 它是非凸的,它从来不是非凸函数,只有域(X)可能是非凸的,这意味着问题本身没有解决方案无约束优化。 sum of squared residuals 根据定义是一个严格凸函数。 非凸性来自于一点点回避。没有任何论据表明残差平方和在 X、y 和任何权重中是凸的。如果这些变量是根据其他变量定义的(如示例(x-a)^3),那么损失仍然可以是非凸的在这些附加变量中 对于严格凸的,你总是有一个唯一的解决方案,我们关注的是函数本身,而不是学习率,我们可以很容易地选择合适的学习率,例如使用线搜索,您的观点完全不正确,凸性的一个明显示例是使用Normal Equation 的最小二乘解决方案,无需选择学习率,而对于使用二阶近似的迭代解决方案,学习率选择根本不是问题 答案很笼统,与学习率、独特解决方案或您评论中的任何其他内容无关。如果您 (1) 添加多项式特征并 (2) 适当地参数化这些特征,那么这些参数中的损失可能是非凸的。最初的问题没有具体说明如何选择多项式特征,因此涵盖这种可能性是合适的。您是反对我选择覆盖它,还是不同意所断言的非凸性?

以上是关于当我们添加多项式特征时,损失函数是不是变得非凸?的主要内容,如果未能解决你的问题,请参考以下文章

AI常见面试35题

回归评价指标MSERMSEMAER-Squared

机器学习非凸优化研究的最新进展极简介绍与资料推荐

MLDS笔记:Optimization

为什么卷积神经网络不是全连接,卷积,池化,激活,损失函数

树模型与集成学习(task6)梯度提升树GBDT+LR