HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类
Posted
技术标签:
【中文标题】HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类【英文标题】:HBase & Mahout - Using HBase as a Datastore/source for Mahout - Classification 【发布时间】:2011-10-12 14:01:54 【问题描述】:我正在处理一个大型文本分类项目,我们将文本数据(简单消息)存储在 HBase 中。
我们有两个问题,首先我们想使用 HBase 作为 Mahout 分类器的来源,即 Bayers 和随机森林。
其次,我们希望能够将生成的模型存储在 HBase 中,而不是使用内存中的方法 (InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用率问题,并希望将 HBase 测试为可行的替代方案。
似乎很少有材料在使用带有 Mahout 的 HBase 以及是否可以将其用作潜在的数据源。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。
稍微挖掘一下,我相信有一个 HBase Bayers Datastore 组件 - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
在此处查看旧版 JavaDoc:http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
但是,看看最新的文档,似乎这个功能已经消失了..? https://builds.apache.org/job/Mahout-Quality/javadoc/
我想知道是否仍然可以使用 HBase 作为 Bayers 和 RandomForests 的数据源,是否有任何以前的用例?
谢谢!
【问题讨论】:
您可能有更好的机会通过将其发布到邮件列表来得到答案 【参考方案1】:这不是直接可能的,不。你可以恢复这个旧的实现,把它掸掉,可能让它工作起来没有太多麻烦。它确实被删除以精简并专注于项目。
您当然也可以考虑以某种形式导出数据,并将其添加到直接支持的表示或存储中。
一般来说,您可以将 HBase 与 Mahout 一起使用,因为 Mahout(大部分)使用 Hadoop,而 Hadoop 可以使用 HBase。这不是这里的情况。这里有一个更直接的集成点,已被弃用。
【讨论】:
以上是关于HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类的主要内容,如果未能解决你的问题,请参考以下文章