除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?
Posted
技术标签:
【中文标题】除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?【英文标题】:Imputing missing values of one of the independent variable using dependent variable in addition to other independent variables? 【发布时间】:2019-12-24 10:47:38 【问题描述】:我想估算一个自变量的缺失值,比如变量 X1,其他自变量与 X1 的相关性较弱。但是,因变量与 X1 有很强的相关性。
我希望使用 sklearn IterativeImputer 的缺失值估算器,例如 KNN 回归器或 ExtraTreesRegressor(类似于 R 中的 missforest)。
https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py
除了自变量之外,我可以使用因变量来估算 X1 的值吗?这会在我的模型中引入太多差异吗?如果不建议这样做,那么应该如何处理 X1,删除 X1 不是一种选择,我担心如果我只用其他 IV 来估算 X1 缺失,估算值会不太准确。
谢谢
【问题讨论】:
【参考方案1】:我对您所指的软件包一无所知。但是,在忽略与因变量的关系的情况下估算变量通常是一个坏主意。这假设这些变量之间没有关系,因此因变量和估算值之间的相关性将偏向于 0。
Graham (2009) 写到:
"事实上,分析模型中的所有变量都必须是 包含在插补模型中。令人恐惧的是,将 DV 包含在 插补模型可能会导致估计重要的偏差 关系(例如,程序变量的回归系数 预测DV)。然而,事实恰恰相反。当 DV 包含在模型中时,所有相关参数估计都是无偏的,但从 IV 和协变量的插补模型中排除 DV 会产生有偏估计。"
希望这会有所帮助。总结一下:
除了自变量之外,我可以使用因变量来估算 X1 的值吗?是的,你可以,而且我读过的大部分文献都表明你绝对应该这样做
这是否会在我的模型中引入太多差异?不,它不应该(你为什么认为这会引入更多的差异?而差异究竟是什么?)。它应该减少变量估计协方差/相关性的偏差。
有关插补的优秀文章,请参阅:
格雷厄姆 (2009)。缺少数据分析:使其在现实世界中发挥作用。 心理学年度回顾, 60, 549-576.
【讨论】:
以上是关于除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?的主要内容,如果未能解决你的问题,请参考以下文章
除了 $scope 之外,还可以将哪些本地变量注入到控制器中?
使用 R 中另一个变量的线性回归的斜率来估算单个变量的缺失数据
除了更改环境变量“PATH”之外,您还需要做啥才能让 Eclipse 识别 MinGW?