除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?

Posted

技术标签:

【中文标题】除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?【英文标题】:Imputing missing values of one of the independent variable using dependent variable in addition to other independent variables? 【发布时间】:2019-12-24 10:47:38 【问题描述】:

我想估算一个自变量的缺失值,比如变量 X1,其他自变量与 X1 的相关性较弱。但是,因变量与 X1 有很强的相关性。

我希望使用 sklearn IterativeImputer 的缺失值估算器,例如 KNN 回归器或 ExtraTreesRegressor(类似于 R 中的 missforest)。

https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py

除了自变量之外,我可以使用因变量来估算 X1 的值吗?这会在我的模型中引入太多差异吗?如果不建议这样做,那么应该如何处理 X1,删除 X1 不是一种选择,我担心如果我只用其他 IV 来估算 X1 缺失,估算值会不太准确。

谢谢

【问题讨论】:

【参考方案1】:

我对您所指的软件包一无所知。但是,在忽略与因变量的关系的情况下估算变量通常是一个坏主意。这假设这些变量之间没有关系,因此因变量和估算值之间的相关性将偏向于 0。

Graham (2009) 写到:

"事实上,分析模型中的所有变量都必须是 包含在插补模型中。令人恐惧的是,将 DV 包含在 插补模型可能会导致估计重要的偏差 关系(例如,程序变量的回归系数 预测DV)。然而,事实恰恰相反。当 DV 包含在模型中时,所有相关参数估计都是无偏的,但从 IV 和协变量的插补模型中排除 DV 会产生有偏估计。"

希望这会有所帮助。总结一下:

除了自变量之外,我可以使用因变量来估算 X1 的值吗?

是的,你可以,而且我读过的大部分文献都表明你绝对应该这样做

这是否会在我的模型中引入太多差异?

不,它不应该(你为什么认为这会引入更多的差异?而差异究竟是什么?)。它应该减少变量估计协方差/相关性的偏差。

有关插补的优秀文章,请参阅:

格雷厄姆 (2009)。缺少数据分析:使其在现实世界中发挥作用。 心理学年度回顾, 60, 549-576.

【讨论】:

以上是关于除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?的主要内容,如果未能解决你的问题,请参考以下文章

除了 $scope 之外,还可以将哪些本地变量注入到控制器中?

使用 R 中另一个变量的线性回归的斜率来估算单个变量的缺失数据

除了更改环境变量“PATH”之外,您还需要做啥才能让 Eclipse 识别 MinGW?

Java 中除了 MDB 之外还都有哪些其他可能性来对消息消费者进行编程?

虚拟变量和preProcess

多元线性回归多重共线性检验及避免方法,简单点的