使用 Hadoop 的机器学习框架 [关闭]
Posted
技术标签:
【中文标题】使用 Hadoop 的机器学习框架 [关闭]【英文标题】:Machine Learning framework with Hadoop [closed] 【发布时间】:2012-07-11 20:20:34 【问题描述】:除了 Mahout 之外还有哪些其他框架可以在 JAVA 中实现机器学习算法,这样底层框架可以获取 JAVA 代码并在 Hadoop 上运行它?
我正在寻找 Mahout 的替代品,因为我需要在 Hadoop 上实现 SVM 和 Agglomerative Clustering,而 Mahout 仅支持 SVM。
【问题讨论】:
那些在 hadoop 上本地运行并且可靠/稳定/成熟/什么的?没有我知道的。您能否说出您正在寻找替代品的 Mahout 有什么问题?这样会更容易回答这个问题。 我创建了非分布式 Mahout 推荐器,以及 Mahout 中基于 Hadoop 的推荐器的一部分。我目前正在开发基于 Mahout 的下一代系统,称为 Myrrix (myrrix.com),其中包括基于 Hadoop 的推荐器实现。不确定它是否是您正在寻找的东西,但如果您对 Hadoop+Mahout 感兴趣,它是相关的。 【参考方案1】:我向你们推荐基于 Apache Hadoop 的机器学习/数据挖掘库,例如 Apache Mahout。
http://www.openankus.org/pages/viewpage.action?pageId=2195722
mapreduce 作业处理就是这么简单轻松。你有兴趣吗?查看更多维基 (http://www.openankus.org)
【讨论】:
【参考方案2】:好吧,如果 SVM 是在 hadoop 上,剩下的就很容易实现了!
请注意,朴素的凝聚聚类算法对于大数据(O(n^2) 复杂度)效率不高。这种复杂性使得该算法无法在大型数据集上运行,即使在大型集群上也是如此,除非您尝试以下扩展之一:ftp://193.167.42.127/franti/papers/Graphpnn-TPAMI.pdf
【讨论】:
【参考方案3】:模式。它有一个 Java API,你也可以使用 R。
http://www.cascading.org/pattern/
【讨论】:
【参考方案4】:快速谷歌搜索给出了以下内容
http://java-ml.sourceforge.net/ - 将近 3 年后,发布了。不确定它的支持程度以及实现了哪些算法。
http://sourceforge.net/projects/weka/ - 其他人最近推荐的一些看起来不错。
另外,请参阅thread。
两个都没试过。
【讨论】:
我不相信他们在 hadoop 上原生运行。还是他们? 这些与 Hadoop 无关。不过,Weka 已经相当成熟了。 是的,很抱歉我错过了 Hadoop 部分。以上是关于使用 Hadoop 的机器学习框架 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章