在 apache spark MLLib 中处理 SVM 中的缺失值

Posted 2023-03-13

技术标签:

【中文标题】在 apache spark MLLib 中处理 SVM 中的缺失值【英文标题】：Handling Missing values in SVM in apache spark ML Lib 【发布时间】：2015-12-30 10:52:02 【问题描述】：

我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中，一些维度可能会丢失。

如何处理缺失值？我认为将缺失值假设为零或其他值是错误的。

【问题讨论】：

【参考方案1】：

您有两个选择： 1-省略具有缺失值的向量 2- 只是估算缺失值，您可以使用平均值或众数

我建议用spark做，很简单的代码，这里有一个例子：

example

【讨论】：

【参考方案2】：

没错。 ML Lib 不会估算缺失值，填写 0 会扭曲您的结果。但是，WEKA 有一个 ReplaceMissingValues 包可能对您有用；这实现了一种插补算法。 http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/LibSVM.html

【讨论】：

以上是关于在 apache spark MLLib 中处理 SVM 中的缺失值的主要内容，如果未能解决你的问题，请参考以下文章

Pandas 与 MLLib 的协方差计算的确切 Apache-Spark NA 处理差异是啥？

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

apache spark mllib naive bayes LabeledPoint 用法

Java应用XIII使用Apache Spark MLlib构建机器学习模型上

Apache Spark Mllib

Spark mllib多层分类感知器在情感分析中的实际应用