处理回归(机器学习)中分类特征的未分配(空)值?
Posted
技术标签:
【中文标题】处理回归(机器学习)中分类特征的未分配(空)值?【英文标题】:Handling unassigned (null) values of categorical features in regression (machine learning)? 【发布时间】:2016-03-09 19:47:51 【问题描述】:我想做线性回归分析。我有多个功能。对于数据中的某些项目,某些功能具有未分配的(空)值。对于序数特征(例如“年份”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)? 为了更清楚,我提供了示例:
分类类型有几个特点:
Color, material, security, type, district
如何在没有太多复杂的插补方法的情况下在分类特征中插补空值?有人建议我将“Null”本身保留为单独的数据变体。因此,例如在“地区”列中,“空”将成为新的“地区”。对所有这些分类特征使用这种简单的插补是否合理,或者可能或多或少简单并且存在更好的插补方法?
【问题讨论】:
【参考方案1】:是的,您可以使用 NULL 作为分类变量的新级别。如果您只需要对分类变量进行简单的插补方法,您还可以尝试使用该变量的最频繁级别(值)或对该数据集合理的一些简单规则进行插补。
【讨论】:
以上是关于处理回归(机器学习)中分类特征的未分配(空)值?的主要内容,如果未能解决你的问题,请参考以下文章