处理回归(机器学习)中分类特征的未分配(空)值?

Posted

技术标签:

【中文标题】处理回归(机器学习)中分类特征的未分配(空)值?【英文标题】:Handling unassigned (null) values of categorical features in regression (machine learning)? 【发布时间】:2016-03-09 19:47:51 【问题描述】:

我想做线性回归分析。我有多个功能。对于数据中的某些项目,某些功能具有未分配的(空)值。对于序数特征(例如“年份”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)? 为了更清楚,我提供了示例:

分类类型有几个特点:

Color, material, security, type, district

如何在没有太多复杂的插补方法的情况下在分类特征中插补空值?有人建议我将“Null”本身保留为单独的数据变体。因此,例如在“地区”列中,“空”将成为新的“地区”。对所有这些分类特征使用这种简单的插补是否合理,或者可能或多或少简单并且存在更好的插补方法?

【问题讨论】:

【参考方案1】:

是的,您可以使用 NULL 作为分类变量的新级别。如果您只需要对分类变量进行简单的插补方法,您还可以尝试使用该变量的最频繁级别(值)或对该数据集合理的一些简单规则进行插补。

【讨论】:

以上是关于处理回归(机器学习)中分类特征的未分配(空)值?的主要内容,如果未能解决你的问题,请参考以下文章

吴恩达机器学习笔记-第三周

逻辑回归推导

机器学习数据预处理之缺失值:预测填充(回归模型填充分类模型填充)

机器学习 | LR公式

机器学习 | LR公式

Spark机器学习:决策树算法