HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类

Posted

技术标签:

【中文标题】HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类【英文标题】:HBase & Mahout - Using HBase as a Datastore/source for Mahout - Classification 【发布时间】:2011-10-12 14:01:54 【问题描述】:

我正在处理一个大型文本分类项目,我们将文本数据(简单消息)存储在 HBase 中。

我们有两个问题,首先我们想使用 HBase 作为 Mahout 分类器的来源,即 Bayers 和随机森林。

其次,我们希望能够将生成的模型存储在 HBase 中,而不是使用内存中的方法 (InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用率问题,并希望将 HBase 测试为可行的替代方案。

似乎很少有材料在使用带有 Mahout 的 HBase 以及是否可以将其用作潜在的数据源。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。

稍微挖掘一下,我相信有一个 HBase Bayers Datastore 组件 - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore 在此处查看旧版 JavaDoc:http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

但是,看看最新的文档,似乎这个功能已经消失了..? https://builds.apache.org/job/Mahout-Quality/javadoc/

我想知道是否仍然可以使用 HBase 作为 Bayers 和 RandomForests 的数据源,是否有任何以前的用例?

谢谢!

【问题讨论】:

您可能有更好的机会通过将其发布到邮件列表来得到答案 【参考方案1】:

这不是直接可能的,不。你可以恢复这个旧的实现,把它掸掉,可能让它工作起来没有太多麻烦。它确实被删除以精简并专注于项目。

您当然也可以考虑以某种形式导出数据,并将其添加到直接支持的表示或存储中。

一般来说,您可以将 HBase 与 Mahout 一起使用,因为 Mahout(大部分)使用 Hadoop,而 Hadoop 可以使用 HBase。这不是这里的情况。这里有一个更直接的集成点,已被弃用。

【讨论】:

以上是关于HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类的主要内容,如果未能解决你的问题,请参考以下文章

大数据结构生态体系

基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装

MapReduce 工作原理

hadoop入门容易吗?

甘道夫通过Mahout构建贝叶斯文本分类器案例具体解释

Hbase的常用的shell命令&Hbase的DDL操作&Hbase的DML操作