当我们添加多项式特征时,损失函数是不是变得非凸?
Posted
技术标签:
【中文标题】当我们添加多项式特征时,损失函数是不是变得非凸?【英文标题】:Does loss function becomes non convex when we add polynomial features?当我们添加多项式特征时,损失函数是否变得非凸? 【发布时间】:2020-11-06 12:17:08 【问题描述】:当我们在多项式回归、逻辑回归、svm 的情况下使用多项式特征时,损失函数是否变得非凸?
【问题讨论】:
【参考方案1】:如果您尝试估计的任何X -> y
选择的损失函数都是凸的,那么添加一组固定多项式特征不会改变这一点。您只是将初始问题与估计问题X' -> y
交换,其中X'
具有附加功能。
如果您还尝试估计新特征的参数,那么在这些维度上很容易得到非凸损失(假设有参数可供选择——如果您只是在谈论添加多项式基础则不适用)。
作为某种证明措施,以一维估计问题为例并选择特征f(x) = (x-a)^3
。假设您的数据集具有单点 (0, 0)
。通过一些工作,您可以证明即使对于新特征的线性回归,损失在参数a
的某些地方也是非凸的。请注意,对于新特征,损失仍然是凸的——标准线性回归总是满足该属性——事实上,我们使用线性回归和多项式的选择来构建一个新的非凸回归器,导致这种行为.
【讨论】:
With a little work you can show that the loss even for linear regression is non-convex
, linear regression - loss
它是非凸的,它从来不是非凸函数,只有域(X)可能是非凸的,这意味着问题本身没有解决方案无约束优化。
sum of squared residuals
根据定义是一个严格凸函数。
非凸性来自于一点点回避。没有任何论据表明残差平方和在 X、y 和任何权重中是凸的。如果这些变量是根据其他变量定义的(如示例(x-a)^3
),那么损失仍然可以是非凸的在这些附加变量中。
对于严格凸的,你总是有一个唯一的解决方案,我们关注的是函数本身,而不是学习率,我们可以很容易地选择合适的学习率,例如使用线搜索,您的观点完全不正确,凸性的一个明显示例是使用Normal Equation
的最小二乘解决方案,无需选择学习率,而对于使用二阶近似的迭代解决方案,学习率选择根本不是问题
答案很笼统,与学习率、独特解决方案或您评论中的任何其他内容无关。如果您 (1) 添加多项式特征并 (2) 适当地参数化这些特征,那么这些参数中的损失可能是非凸的。最初的问题没有具体说明如何选择多项式特征,因此涵盖这种可能性是合适的。您是反对我选择覆盖它,还是不同意所断言的非凸性?以上是关于当我们添加多项式特征时,损失函数是不是变得非凸?的主要内容,如果未能解决你的问题,请参考以下文章