使用 Maven 运行 Kmeans 集群示例(Mahout in Action)

Posted

技术标签:

【中文标题】使用 Maven 运行 Kmeans 集群示例(Mahout in Action)【英文标题】:Running Kmeans Clustering example with Maven (Mahout in Action) 【发布时间】:2018-01-23 02:38:45 【问题描述】:

我正在考虑与How to run examples in mahout in action book 相同的示例,但我想使用 Maven 来运行它。使用

构建良好
> mvn clean -DskipTests package

但是当我尝试运行它时:

> java -cp target/K-Means-1.0-SNAPSHOT.jar Clustering.Kmeans


Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: 
org/apache/mahout/math/Vector
    at java.lang.Class.getDeclaredMethods0(Native Method)
    at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
    at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
    at java.lang.Class.getMethod0(Class.java:3018)
    at java.lang.Class.getMethod(Class.java:1784)
    at 
sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
    at 
sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more

这很奇怪,因为我在 pom.xml 中包含了 mahout-math-0.7,并且我手动检查了它是否包含 Vector.class。那么出了什么问题呢?我需要使用 hadoop 而不是 java,还是我的 pom.xml 有问题?我假设如果我从http://mvnrepository.com/ 拉出http://maven.apache.org 就可以了...

作为参考,这是我的 pom.xml 中的内容:

<project xmlns="http://maven.apache.org/POM/4.0.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>Clustering</groupId>
<artifactId>K-Means</artifactId>
<packaging>jar</packaging>
<version>1.0-SNAPSHOT</version>
<name>K-Means</name>
<url>http://maven.apache.org</url>
<dependencies>
<dependency>
  <groupId>junit</groupId>
  <artifactId>junit</artifactId>
  <version>3.8.1</version>
  <scope>test</scope>
</dependency>

<dependency>
     <groupId>org.apache.mahout</groupId>
     <artifactId>mahout-mr</artifactId>
     <version>0.10.0</version>
</dependency>

    <dependency>
        <groupId>org.apache.mahout</groupId>
        <artifactId>mahout-core</artifactId>
        <version>0.7</version>
    </dependency>

    <dependency>
        <groupId>org.apache.mahout</groupId>
        <artifactId>mahout-math</artifactId>
        <version>0.7</version>
    </dependency>
</dependencies>
</project>

这是我的导入:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.mahout.clustering.Cluster;
import org.apache.mahout.clustering.classify.WeightedPropertyVectorWritable;
import org.apache.mahout.clustering.kmeans.KMeansDriver;
import org.apache.mahout.clustering.kmeans.Kluster;
import org.apache.mahout.common.distance.EuclideanDistanceMeasure;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.Vector;
import org.apache.mahout.math.VectorWritable;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

【问题讨论】:

【参考方案1】:

你的类路径不包括所有的罐子。

也不要混合版本。

【讨论】:

那么这些罐子在哪里,如果它们没有被打包到我包含的那个中? 检查 jar 大小和内容。事实上,将所有内容合并到一个大 jar 中可能几乎是不可能的(因为文件名重复,所以您还需要合并一些文件)。有 maven 插件可以帮助您获取所需的 jars 和启动脚本。 但请注意 Mahout kmeans 非常慢。而是使用例如ELKI 反而更快。

以上是关于使用 Maven 运行 Kmeans 集群示例(Mahout in Action)的主要内容,如果未能解决你的问题,请参考以下文章

Spark Mllib kmeans 示例,使用数据框而不是 textFile

在 hadoop 多节点集群上运行 mahout kmeans

如何将 Mahout KMeans 集群集成到应用程序中?

KMeans 从 2 列的所有可能组合中聚类不产生正确的输出

为啥 KMeans 集群标签并不总是与 set random_state 相同?

PySpark 中的 KMeans 聚类