Apache Spark Mllib

Posted

技术标签:

【中文标题】Apache Spark Mllib【英文标题】:Apache Spark Mlib 【发布时间】:2016-03-07 19:53:14 【问题描述】:

我正在尝试使用 Spark 中的 MLlib 在 Java 上实现 KMeans,但我偶然发现了一个问题,即尽管我导入了正确的 jar,但我的编译器无法识别这一行

// Cluster the data into two classes using KMeans
    int numClusters = 2;
    int numIterations = 20;
    KMeansModel clusters = KMeans.train(parsedData.rdd(), numClusters, numIterations);

我得到的错误是:The method train(<RDD> vector, int, int) is undefined for the type KMeans() 这没有任何意义,因为我已经下载了最新的 apache MLlib(1.5.2) jar,它也在 Javadoc 中定义。

有什么想法吗?有没有人遇到过这种问题?

【问题讨论】:

您也将 jar 依赖项添加到您的项目中,是吗? 我从未听说过这个词。你能简单地告诉我吗? 项目-->属性-->构建-->添加Jar 是的。当然!我添加了最新的 JAR。 (1.5.2)正如我在描述中所说的 您似乎缺少有关 Java 应用程序和构建工具的基础知识。在您开始使用 Spark 之前,您应该先从这些主题开始。 【参考方案1】:

我遇到了类似的问题,通过导入正确的库解决了,

import org.apache.spark.mllib.clustering.KMeans;
import org.apache.spark.mllib.clustering.KMeansModel;

而不是

import org.apache.spark.ml.clustering.KMeans;
import org.apache.spark.ml.clustering.KMeansModel;

【讨论】:

以上是关于Apache Spark Mllib的主要内容,如果未能解决你的问题,请参考以下文章

值 toDF 不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员

Spark 错误 - 值文本文件不是 org.apache.spark.sparkcontext 的成员

Apache Spark :org.apache.spark.sql.Dataset.drop(String... colNames) 方法用于 Java

Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul(

apache storm apache spark哪个更火

如何选择Apache Spark和Apache Flink