使用 Maven 运行 Kmeans 集群示例(Mahout in Action)
Posted
技术标签:
【中文标题】使用 Maven 运行 Kmeans 集群示例(Mahout in Action)【英文标题】:Running Kmeans Clustering example with Maven (Mahout in Action) 【发布时间】:2018-01-23 02:38:45 【问题描述】:我正在考虑与How to run examples in mahout in action book 相同的示例,但我想使用 Maven 来运行它。使用
构建良好> mvn clean -DskipTests package
但是当我尝试运行它时:
> java -cp target/K-Means-1.0-SNAPSHOT.jar Clustering.Kmeans
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError:
org/apache/mahout/math/Vector
at java.lang.Class.getDeclaredMethods0(Native Method)
at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
at java.lang.Class.getMethod0(Class.java:3018)
at java.lang.Class.getMethod(Class.java:1784)
at
sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
at
sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 7 more
这很奇怪,因为我在 pom.xml 中包含了 mahout-math-0.7,并且我手动检查了它是否包含 Vector.class。那么出了什么问题呢?我需要使用 hadoop 而不是 java,还是我的 pom.xml 有问题?我假设如果我从http://mvnrepository.com/ 拉出http://maven.apache.org 就可以了...
作为参考,这是我的 pom.xml 中的内容:
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>Clustering</groupId>
<artifactId>K-Means</artifactId>
<packaging>jar</packaging>
<version>1.0-SNAPSHOT</version>
<name>K-Means</name>
<url>http://maven.apache.org</url>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-mr</artifactId>
<version>0.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.7</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-math</artifactId>
<version>0.7</version>
</dependency>
</dependencies>
</project>
这是我的导入:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.mahout.clustering.Cluster;
import org.apache.mahout.clustering.classify.WeightedPropertyVectorWritable;
import org.apache.mahout.clustering.kmeans.KMeansDriver;
import org.apache.mahout.clustering.kmeans.Kluster;
import org.apache.mahout.common.distance.EuclideanDistanceMeasure;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.Vector;
import org.apache.mahout.math.VectorWritable;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
【问题讨论】:
【参考方案1】:你的类路径不包括所有的罐子。
也不要混合版本。
【讨论】:
那么这些罐子在哪里,如果它们没有被打包到我包含的那个中? 检查 jar 大小和内容。事实上,将所有内容合并到一个大 jar 中可能几乎是不可能的(因为文件名重复,所以您还需要合并一些文件)。有 maven 插件可以帮助您获取所需的 jars 和启动脚本。 但请注意 Mahout kmeans 非常慢。而是使用例如ELKI 反而更快。以上是关于使用 Maven 运行 Kmeans 集群示例(Mahout in Action)的主要内容,如果未能解决你的问题,请参考以下文章
Spark Mllib kmeans 示例,使用数据框而不是 textFile
在 hadoop 多节点集群上运行 mahout kmeans
KMeans 从 2 列的所有可能组合中聚类不产生正确的输出