在 apache spark MLLib 中处理 SVM 中的缺失值
Posted
技术标签:
【中文标题】在 apache spark MLLib 中处理 SVM 中的缺失值【英文标题】:Handling Missing values in SVM in apache spark ML Lib 【发布时间】:2015-12-30 10:52:02 【问题描述】:我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中,一些维度可能会丢失。
如何处理缺失值?我认为将缺失值假设为零或其他值是错误的。
【问题讨论】:
【参考方案1】:您有两个选择: 1-省略具有缺失值的向量 2- 只是估算缺失值,您可以使用平均值或众数
我建议用spark做,很简单的代码,这里有一个例子:
example
【讨论】:
【参考方案2】:没错。 ML Lib 不会估算缺失值,填写 0 会扭曲您的结果。但是,WEKA 有一个 ReplaceMissingValues 包可能对您有用;这实现了一种插补算法。 http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/LibSVM.html
【讨论】:
以上是关于在 apache spark MLLib 中处理 SVM 中的缺失值的主要内容,如果未能解决你的问题,请参考以下文章
Pandas 与 MLLib 的协方差计算的确切 Apache-Spark NA 处理差异是啥?
Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法
apache spark mllib naive bayes LabeledPoint 用法