使用 Hadoop 的机器学习框架 [关闭]

Posted

技术标签:

【中文标题】使用 Hadoop 的机器学习框架 [关闭]【英文标题】:Machine Learning framework with Hadoop [closed] 【发布时间】:2012-07-11 20:20:34 【问题描述】:

除了 Mahout 之外还有哪些其他框架可以在 JAVA 中实现机器学习算法,这样底层框架可以获取 JAVA 代码并在 Hadoop 上运行它?

我正在寻找 Mahout 的替代品,因为我需要在 Hadoop 上实现 SVM 和 Agglomerative Clustering,而 Mahout 仅支持 SVM。

【问题讨论】:

那些在 hadoop 上本地运行并且可靠/稳定/成熟/什么的?没有我知道的。您能否说出您正在寻找替代品的 Mahout 有什么问题?这样会更容易回答这个问题。 我创建了非分布式 Mahout 推荐器,以及 Mahout 中基于 Hadoop 的推荐器的一部分。我目前正在开发基于 Mahout 的下一代系统,称为 Myrrix (myrrix.com),其中包括基于 Hadoop 的推荐器实现。不确定它是否是您正在寻找的东西,但如果您对 Hadoop+Mahout 感兴趣,它是相关的。 【参考方案1】:

我向你们推荐基于 Apache Hadoop 的机器学习/数据挖掘库,例如 Apache Mahout。

http://www.openankus.org/pages/viewpage.action?pageId=2195722

mapreduce 作业处理就是这么简单轻松。你有兴趣吗?查看更多维基 (http://www.openankus.org)

【讨论】:

【参考方案2】:

好吧,如果 SVM 是在 hadoop 上,剩下的就很容易实现了!

请注意,朴素的凝聚聚类算法对于大数据(O(n^2) 复杂度)效率不高。这种复杂性使得该算法无法在大型数据集上运行,即使在大型集群上也是如此,除非您尝试以下扩展之一:ftp://193.167.42.127/franti/papers/Graphpnn-TPAMI.pdf

【讨论】:

【参考方案3】:

模式。它有一个 Java API,你也可以使用 R。

http://www.cascading.org/pattern/

【讨论】:

【参考方案4】:

快速谷歌搜索给出了以下内容

http://java-ml.sourceforge.net/ - 将近 3 年后,发布了。不确定它的支持程度以及实现了哪些算法。

http://sourceforge.net/projects/weka/ - 其他人最近推荐的一些看起来不错。

另外,请参阅thread。

两个都没试过。

【讨论】:

我不相信他们在 hadoop 上原生运行。还是他们? 这些与 Hadoop 无关。不过,Weka 已经相当成熟了。 是的,很抱歉我错过了 Hadoop 部分。

以上是关于使用 Hadoop 的机器学习框架 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

使用JavaScript实现机器学习和神经学网络

阿里云机器学习平台PAI之分类实践

阿里云机器学习平台PAI之分类实践

TensFlow框架学习之MNIST机器学习入门

{Submarine} 在 Apache Hadoop 中运行深度学习框架

尚学讲堂 | 机器学习框架下的因果推断