目标因变量是连续的,但自变量是分类的

Posted

技术标签:

【中文标题】目标因变量是连续的,但自变量是分类的【英文标题】:Target Dependent Variables is continuous but Independent Variables are Categorical 【发布时间】:2021-05-06 05:12:59 【问题描述】:

我正在处理一个数据集,其中我的因变量是连续的,但我的所有自变量都是分类的(非二进制)。我尝试了一种热编码或创建了虚拟变量。我得到低 R2 大约 0.4,但高调整 R2 大约 0.9。然而,我在回归图和残差图中得到了垂直线,即使我的 QQ 线似乎适合一条直线,最后有一些重尾。那么我可以知道回归模型是否是在这种情况下使用的正确方法吗?如果是,应该如何分析图,如果不是,还有哪些其他方法和库可以用来产生更好的结果?

【问题讨论】:

【参考方案1】:

我尝试在下面解决您的一些问题:

但是,我的回归图和残差中有垂直线 情节

如果您的所有自变量 (IV) 都是分类变量,则这是预期的。每个类别都被编码为二进制,每个观察的预测将是每个类别的组合。为简单说明,假设通过 2 个二进制变量进行预测,只能有 4 个结果(0/0、0/1、1/0、1/1).. 如果将其扩展到许多二进制变量,您会看到一种离散的预测。

换句话说,没有斜率可言,因此您不应该看到连续的预测。你可以阅读更多关于regression with categories here

虽然我的 QQ 线似乎和一些人成一条直线 最后的尾巴很重。所以我可以知道回归模型是否正确 在这种情况下使用的方法?

是的,您仍然可以使用线性模型。

如果是,那么应该如何分析这些图,如果是,那是什么 是可以用来产生的其他方法和库 效果更好?

除了不进行推理之外,您所拥有的基本上类似于方差分析。您可以使用levene test 或其他similar test 检查方差的同质性。当您有大量观察时,这些测试可能非常敏感。看看你的 qq plot ,它着眼于分位数,我认为它很好。

【讨论】:

以上是关于目标因变量是连续的,但自变量是分类的的主要内容,如果未能解决你的问题,请参考以下文章

连续性数值变量,怎么做

R语言笔记——将分类变量转换为连续变量

您如何使用 Scikit learn 预测分类变量和连续变量的组合?

使用连续变量的决策树

如何在 R 中将分类变量转换为连续变量?

如何预测表示目标类概率的连续因变量?