目标因变量是连续的,但自变量是分类的
Posted
技术标签:
【中文标题】目标因变量是连续的,但自变量是分类的【英文标题】:Target Dependent Variables is continuous but Independent Variables are Categorical 【发布时间】:2021-05-06 05:12:59 【问题描述】:我正在处理一个数据集,其中我的因变量是连续的,但我的所有自变量都是分类的(非二进制)。我尝试了一种热编码或创建了虚拟变量。我得到低 R2 大约 0.4,但高调整 R2 大约 0.9。然而,我在回归图和残差图中得到了垂直线,即使我的 QQ 线似乎适合一条直线,最后有一些重尾。那么我可以知道回归模型是否是在这种情况下使用的正确方法吗?如果是,应该如何分析图,如果不是,还有哪些其他方法和库可以用来产生更好的结果?
【问题讨论】:
【参考方案1】:我尝试在下面解决您的一些问题:
但是,我的回归图和残差中有垂直线 情节
如果您的所有自变量 (IV) 都是分类变量,则这是预期的。每个类别都被编码为二进制,每个观察的预测将是每个类别的组合。为简单说明,假设通过 2 个二进制变量进行预测,只能有 4 个结果(0/0、0/1、1/0、1/1).. 如果将其扩展到许多二进制变量,您会看到一种离散的预测。
换句话说,没有斜率可言,因此您不应该看到连续的预测。你可以阅读更多关于regression with categories here
虽然我的 QQ 线似乎和一些人成一条直线 最后的尾巴很重。所以我可以知道回归模型是否正确 在这种情况下使用的方法?
是的,您仍然可以使用线性模型。
如果是,那么应该如何分析这些图,如果是,那是什么 是可以用来产生的其他方法和库 效果更好?
除了不进行推理之外,您所拥有的基本上类似于方差分析。您可以使用levene test 或其他similar test 检查方差的同质性。当您有大量观察时,这些测试可能非常敏感。看看你的 qq plot ,它着眼于分位数,我认为它很好。
【讨论】:
以上是关于目标因变量是连续的,但自变量是分类的的主要内容,如果未能解决你的问题,请参考以下文章