处理回归(机器学习)中特征的未分配(空)值?

Posted

技术标签:

【中文标题】处理回归(机器学习)中特征的未分配(空)值?【英文标题】:Handling unassigned (null) values of features in regression (machine learning)? 【发布时间】:2016-03-07 11:01:48 【问题描述】:

我想做线性回归分析。我有多种功能。对于数据中的某些项目,某些功能具有未分配的(空)值。因为对于某些项目,数据源中缺少一些特定的特征值。为了更清楚,我提供示例:

如您所见,某些项目缺少某些功能的值。现在,我只是将它分配给“Null”,但是在对数据进行线性回归分析时如何处理这个值?我不希望这个未分配的值错误地影响回归模型。不幸的是,我无法摆脱出现未分配特征值的项目。我计划使用 Python 进行回归。

【问题讨论】:

【参考方案1】:

您需要忽略这些行 - 您已经说过不能,而且缺失值的数量不是一个好主意 - 或者使用主动折扣这些项目的算法,或估算(即填充有根据的猜测的技术术语)缺失的数据。

我们可以提供的帮助有限,因为您没有为我们提供您想要的丢失数据的语义。您可以根据您拥有的数据使用您最喜欢的“最接近匹配”算法来估算一些缺失值。例如,您很可能能够从其他数据中推断出很好的面积猜测。

对于您的非线性离散项目(即地区),您可能希望将 NULL 保留为单独的地区。如果您缺少足够少的条目,那么无论如何您都可以得到一个像样的模型。

一个简单的插补是将每个 NULL 替换为特征的平均值,但这仅适用于具有适当平均值的那些(即 not 区)。

总的来说,我建议您搜索有关“估算缺失数据”的适当参考资料。由于我们不确定您的需求,因此我们对此无能为力,而且这样做超出了 SO 的范围。

【讨论】:

以上是关于处理回归(机器学习)中特征的未分配(空)值?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之决策树

零基础学Python--机器学习:机器学习算法和开发

机器学习笔记

机器学习之数据分析与特征工程

集成学习模型(xgboostlightgbmcatboost)进行回归预测构建实战:异常数据处理缺失值处理数据重采样resample独热编码预测特征检查特征可视化预测结构可视化模型

机器学习之逻辑回归