欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

程序员文章站 2023-10-28 17:29:04
数据挖掘 推荐算法(Mahout工具) 一、简介 Apache*项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类 二、机器学习介绍 通常问题都归为这几类问题 分类问题 回归问题 聚类问题 推荐问题 三、安装方法 3.1 下载Mahou ......

数据挖掘---推荐算法(mahout工具)

一、简介

  • apache*项目(2010.4)
  • hadoop上的开源机器学习库
  • 可伸缩扩展的
  • java库
  • 推荐引擎(协同过滤)、聚类和分类

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

 

二、机器学习介绍

  • 通常问题都归为这几类问题
  • 分类问题
  • 回归问题
  • 聚类问题
  • 推荐问题

三、安装方法

3.1 下载mahout

wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

3.2 解压

tar -zxvf  mahout-distribution-0.9.tar.gz

四、配置环境变量

4.1 配置mahout环境变量

# set mahout environment
export mahout_home=/usr/local/src/mahout-distribution-0.9
export mahout_conf_dir=$mahout_home/conf
export path=$mahout_home/conf:$mahout_home/bin:$path

4.2 配置mahout所需的hadoop环境变量

# set hadoop environment
export hadoop_home=/usr/local/src/hadoop-1.2.1
export hadoop_conf_dir=$hadoop_home/conf
export path=$path:$hadoop_home/bin
export hadoop_home_warn_suppress=not_null

五、验证是否成功

直接执行mahout命令

支持算法列表

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

六、准备数据

数据格式:
1,100001,5
1,100002,3
1,100003,4
1,100004,3
1,100005,3
1,100007,4
1,100008,1
1,100009,5
1,1000011,2

七、训练

input="/movie_lens.data"
tmp_dir="/mahout_temp"
output="/cf_mahout_output"
mahout_cmd="/usr/local/src/mahout-distribution-0.9/bin/mahout“
$mahout_cmd itemsimilarity
-i $input
-o $output
--maxsimilaritiesperitem 1000
--threshold 0.0000001
--similarityclassname similarity_cosine
--tempdir $tmp_dir

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

 

 八、输出结果

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)