为分类算法准备数据

Posted 2023-03-12

技术标签:

【中文标题】为分类算法准备数据【英文标题】：Preparing data for classification algorithm 【发布时间】：2019-05-24 15:00:24 【问题描述】：

我必须准备和分类一个由 100 000 + 行和 105 个变量组成的数据集，我正在寻找建议。（我正在使用 R）

基本上，该集合充满了虚拟变量和缺失值（占整个数据集的 44%）。

我想知道如何处理 NA，我分为两个想法：一世] 1- 消除缺失值超过 70% 的每一列 2- 将剩余列中的缺失值替换为均值或中位数

二] 消除所有缺失值

你觉得呢？

我还能做些什么来准备数据吗？（与 NA 打交道除外）

【问题讨论】：

如果这是您使用的语言，则应使用 r 标记这不是一个 R 问题，它是一个关于缺失值插补的研究方法问题。它比 SO 更适合 CrossValidated。 【参考方案1】：

缺失值的填补这一话题在社会科学领域有着悠久的历史，至少可以追溯到 1980 年代我还是一名研究生时，当时我不得不向密歇根州立大学的政治学教授解释为什么她无法复制她之前进行的因子分析，因为 SPSS 从因子分析过程中消除了缺失值的均值替换选项。

关于如何处理统计分析中的缺失数据，有各种各样的研究（和意见）。例如，在Data Analysis Using Regression and Multilevel / Hierarchical Models 的Chapter 25 中，Gelman 和 Hill 描述了用于估算一个变量和多个变量的多种方法。

为了为特定数据集选择插补策略，必须评估缺失数据缺失的原因。 Gelman & Hill 回顾了四大类“缺失机制”，包括：

完全随机缺失（所有单元/科目的缺失概率相等）随机缺失（例如，不同种族的反应率不同）依赖于未观察到的预测变量的缺失取决于缺失值本身的缺失（例如，收入超过 100,000 美元的人拒绝回答收入问题）

因此，在没有针对缺失机制分析原始发帖人的具体数据集的情况下，对使用哪种插补技术的具体指导是不合适的。可以在Strategies for Handling Missing Values 找到有关缺失数据插补的更多研究。

【讨论】：

我去看看，谢谢！