数据挖掘---推荐算法(Mahout工具)

Posted 人工智能 AI

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘---推荐算法(Mahout工具)相关的知识,希望对你有一定的参考价值。


数据挖掘---推荐算法(Mahout工具)

一、简介

  • Apache顶级项目(2010.4)

  • Hadoop上的开源机器学习库

  • 可伸缩扩展的

  • Java库

  • 推荐引擎(协同过滤)、聚类和分类

 

二、机器学习介绍

  • 通常问题都归为这几类问题

  • 分类问题

  • 回归问题

  • 聚类问题

  • 推荐问题

三、安装方法

3.1 下载Mahout

wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

3.2 解压

tar -zxvf  mahout-distribution-0.9.tar.gz

四、配置环境变量

4.1 配置mahout环境变量

# set mahout environment
export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9
export MAHOUT_CONF_DIR
=$MAHOUT_HOME/conf
export PATH
=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

4.2 配置Mahout所需的Hadoop环境变量

# set hadoop environment
export HADOOP_HOME=/usr/local/src/hadoop-1.2.1
export HADOOP_CONF_DIR
=$HADOOP_HOME/conf
export PATH
=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS
=not_null

五、验证是否成功

直接执行mahout命令

支持算法列表

数据挖掘---推荐算法(Mahout工具)

六、准备数据

数据格式:
1,100001,5
1,100002,3
1,100003,4
1,100004,3
1,100005,3
1,100007,4
1,100008,1
1,100009,5
1,1000011,2

七、训练

INPUT="/movie_lens.data"
TMP_DIR
="/mahout_temp"
OUTPUT
="/cf_mahout_output"
MAHOUT_CMD
="/usr/local/src/mahout-distribution-0.9/bin/mahout“
$MAHOUT_CMD itemsimilarity
-i $INPUT
-o $OUTPUT
--maxSimilaritiesPerItem 1000
--threshold 0.0000001
--similarityClassname SIMILARITY_COSINE
--tempDir $TMP_DIR

 

 八、输出结果

 

以上是关于数据挖掘---推荐算法(Mahout工具)的主要内容,如果未能解决你的问题,请参考以下文章

Mahout学习系列之推荐算法

Mahout推荐算法API具体解释一起学Mahout

Mahout学习之Mahout简介安装配置入门程序测试

小烨推荐分享一个明学平台的实验-Mahout贝叶斯分类算法

基于Mahout和Elasticsearch的推荐系统

mahout 是实时工作还是根据算法规则对数据进行预处理?