(Java)开源机器学习框架
Posted 明柳梦少
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(Java)开源机器学习框架相关的知识,希望对你有一定的参考价值。
Datumbox机器学习框架
Datumbox机器学习框架是一个用Java编写的开源框架,它允许快速开发机器学习和统计应用程序。该框架的主要重点是包括大量的机器学习算法和统计方法,并能够处理大型数据集。
版权和许可
版权所有(C)2013-2018 Vasilis Vryniotis。
该代码根据Apache许可证2.0版获得许可。
安装和版本控制
Datumbox Framework可在Maven Central Repository上使用。
该框架的最新稳定版本是0.8.1(Build 20170831)。要使用它,请在pom.xml中添加以下代码段:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.1</version>
</dependency>
该框架的最新快照版本是0.8.2-SNAPSHOT(Build 20180410)。要测试它,请按如下所示更新pom.xml:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2-SNAPSHOT</version>
</dependency>
框架的发布遵循语义版本控制方法。有关各种版本的详细信息,请查看Changelog。
文档和代码示例
使用Javadoc注释记录框架的所有公共方法和类。此外,对于每个型号都有一个JUnit测试,它清楚地显示了如何训练和使用模型。最后有关如何使用框架检查代码示例或官方博客的更多示例。
代码示例:
https://github.com/datumbox/datumbox-framework-examples/
官方博客
http://blog.datumbox.com/
预先训练的模型
Datumbox附带了大量预先训练的模型,可用于执行情感分析(文档和推特),主观性分析,主题分类,垃圾邮件检测,成人内容检测,语言检测,商业检测,教育检测和性别检测。要获取二进制模型,请查看Datumbox Zoo。
支持哪些方法/算法?
该框架目前支持执行多个参数和非参数统计测试,计算有关删失和未审查数据的描述性统计数据,执行方差分析,聚类分析,降维,回归分析,时间序列分析,采样和最常见离散的概率计算并继续分布。此外,它提供了几种实现的算法,包括最大熵,朴素贝叶斯,SVM,Bootstrap聚合,Adaboost,Kmeans,分层聚类,Dirichlet过程混合模型,Softmax回归,序数回归,线性回归,逐步回归,PCA和其他几种技术用于特征选择,集成学习,线性编程求解和推荐系统。
错误报告
尽管框架的某些部分已用于商业应用,但并非所有类别都被使用/测试。目前该框架采用Alpha版本,因此您应该期望在未来版本上对公共API进行一些更改。如果发现错误,请将其作为 Github官方存储库的问题提交。
特约
框架可以通过多种方式得到改进,因此欢迎任何贡献。到目前为止,框架中缺少的最重要的功能是能够从命令行或其他语言(如Python)使用它。其他重要的增强功能包括改进文档,测试覆盖率和示例,改进框架的体系结构以及支持更多的机器学习和统计模型。如果您对代码进行任何有用的更改,请考虑通过发送拉取请求来贡献它们。
致谢
非常感谢Eleftherios Bampaletakis在改进框架架构方面的宝贵意见。还要感谢ej-technologies GmbH为其Java Profiler提供许可证,并感谢JetBrains为其Java IDE提供许可证。
有用的链接
代码示例
https://github.com/datumbox/datumbox-framework-examples/
Datumbox Zoo:预先训练的模型
https://github.com/datumbox/datumbox-framework-zoo/
Datumbox.com
http://www.datumbox.com/
机器学习博客
http://blog.datumbox.com/
以上是关于(Java)开源机器学习框架的主要内容,如果未能解决你的问题,请参考以下文章
干货 | 科技巨头开源的机器学习框架:250万行代码,价值超8000万美元
专知-Deeplearning4j深度学习教程01分布式Java开源深度学习框架DL4j安装使用: 图文+代码