何时不使用线性回归?
Posted
技术标签:
【中文标题】何时不使用线性回归?【英文标题】:When Not To Use Linear Regression? 【发布时间】:2022-01-18 03:13:47 【问题描述】:我能否举一些线性回归可能给出不准确预测的示例?最好使用 Python 代码示例。我在 Anscombe 的四重奏中获得了一个例子。还有其他人吗?
【问题讨论】:
显然,如果变量之间的关系不是线性的,那么线性回归就不会非常有用。有很多非线性关系。 你用Anscombe的四重奏获得了四个的例子:这就是“四重奏”的意思!您可以按照stats.stackexchange.com/a/152034/919 中的过程(包括工作R
代码)构建一组无限变化的此类示例。
我认为你的问题必须非常清楚。我可以通过添加转换后的输入变量来近似任何非线性关系。例如 x_1^2 *sin(x_2)。
@seanv507 Anscombe 的所有四重奏怎么样?
anscombe 的四重奏 en.wikipedia.org/wiki/Anscombe%27s_quartet 具有 a) 线性关系 b) 二次关系和 2 个带有异常值的示例,我假设 robust 线性回归可以识别预期的关系。
【参考方案1】:
我将假设您正在谈论在机器学习中使用线性回归模型(如创建线性方程来预测与某些未来未知输入相关的输出)。我们经常考虑最小化风险(从而最大化准确性),而不是“准确性”。
因此,您的问题本质上是在问线性回归模型何时会给我们带来高风险(更具体地说,是不可预见数据的高风险,通常使用 Structural risk 估计)。这个问题的答案涉及到很多因素,在here和here有详细描述。
可能被认为是最重要的一个因素,我认为这是您真正要问的,是是否可以通过 linear combination 找到给定输入值的输出值输入变量——无论是输入变量的原始状态还是输入变量的transformation 之后,当然取决于所做的转换,必须注意不要overfit。
【讨论】:
作为一个一般命题,输入变量之间是否存在线性关系在线性回归中是完全无关的。我相信您的意思是 响应变量 必须通过解释(输入)变量的线性组合来合理地描述。以上是关于何时不使用线性回归?的主要内容,如果未能解决你的问题,请参考以下文章