在 apache spark MLLib 中处理 SVM 中的缺失值

Posted

技术标签:

【中文标题】在 apache spark MLLib 中处理 SVM 中的缺失值【英文标题】:Handling Missing values in SVM in apache spark ML Lib 【发布时间】:2015-12-30 10:52:02 【问题描述】:

我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中,一些维度可能会丢失。

如何处理缺失值?我认为将缺失值假设为零或其他值是错误的。

【问题讨论】:

【参考方案1】:

您有两个选择: 1-省略具有缺失值的向量 2- 只是估算缺失值,您可以使用平均值或众数

我建议用spark做,很简单的代码,这里有一个例子:

example

【讨论】:

【参考方案2】:

没错。 ML Lib 不会估算缺失值,填写 0 会扭曲您的结果。但是,WEKA 有一个 ReplaceMissingValues 包可能对您有用;这实现了一种插补算法。 http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/LibSVM.html

【讨论】:

以上是关于在 apache spark MLLib 中处理 SVM 中的缺失值的主要内容,如果未能解决你的问题,请参考以下文章

Pandas 与 MLLib 的协方差计算的确切 Apache-Spark NA 处理差异是啥?

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

apache spark mllib naive bayes LabeledPoint 用法

Java应用XIII使用Apache Spark MLlib构建机器学习模型上

Apache Spark Mllib

Spark mllib多层分类感知器在情感分析中的实际应用