Mahout学习之Mahout简介安装配置入门程序测试
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Mahout学习之Mahout简介安装配置入门程序测试相关的知识,希望对你有一定的参考价值。
提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和 处理性能。
二、Mahout安装、配置
1、下载Mahout
http://archive.apache.org/dist/mahout/
2、解压
tar -zxvf mahout-distribution-0.9.tar.gz
三、配置环境变量
1、配置Mahout环境变量
# set mahout environment
export MAHOUT_HOME=/home/yujianxin/mahout/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
2、配置Mahout所需的Hadoop环境变量
# set hadoop environment
export HADOOP_HOME=/home/yujianxin/hadoop/hadoop-1.1.2
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=not_null
四、验证Mahout是否安装成功
执行命令mahout。若列出一些算法,则成功
五、使用Mahout 之入门级使用
5.1、启动Hadoop
5.2、下载测试数据
http://archive.ics.uci.edu/ml/databases/synthetic_control/链接中的synthetic_control.data
5.3、上传测试数据
hadoop fs -put synthetic_control.data /user/root/testdata
5.4 使用Mahout中的kmeans聚类算法,执行命令:
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
花费9分钟左右完成聚类 。
5.5 查看聚类结果
执行hadoop fs -ls /user/root/output,查看聚类结果。
内容来自:http://itindex.net/detail/49323-mahout-%E5%AD%A6%E4%B9%A0-mahout
以上是关于Mahout学习之Mahout简介安装配置入门程序测试的主要内容,如果未能解决你的问题,请参考以下文章