mahout 是实时工作还是根据算法规则对数据进行预处理?

Posted

技术标签:

【中文标题】mahout 是实时工作还是根据算法规则对数据进行预处理?【英文标题】:Does mahout work real time or does it pre-process the data based on the algorithm rules? 【发布时间】:2013-05-20 08:44:56 【问题描述】:

我正在尝试构建一个推荐引擎,因为我正在考虑使用 apache mahout,但我无法确定 mahout 是实时处理数据还是在服务器空闲时预处理数据并且将结果存储在数据库中的某个位置。

还有谁知道像 amazon、netflix 这样的网站采用什么方法?

【问题讨论】:

【参考方案1】:

非此即彼,但不是两者兼而有之。旧项目中的某些部分基本上是实时的,适用于中等规模。还有一些基于 Hadoop 的实现都是离线的。两者没有关系。

我是这些部分的主要创建者,如果您想要一个同时兼顾两者的系统,我建议您查看我当前的项目 Myrrix (http://myrrix.com)

【讨论】:

好的,你的意思是我们可以实时处理数据,也可以预处理数据并在之后使用结果,但不能同时在 mahout 中使用。 P.S 如果我们希望最大限度地减少显示结果的时间,那么最好的方法是什么,并且空间不是问题。

以上是关于mahout 是实时工作还是根据算法规则对数据进行预处理?的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop、Mahout 实时处理替代方案

使用 Apache Mahout 对数据进行分类

基于Mahout和Elasticsearch的推荐系统

使用 Mahout 进行朴素贝叶斯分类的情感分析

使用 Mahout 对一个点进行聚类

深入了解推荐引擎组件(基于Apache Mahout和Elasticsearch)