(Java)开源机器学习框架

Posted 明柳梦少

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(Java)开源机器学习框架相关的知识,希望对你有一定的参考价值。

Datumbox机器学习框架

Datumbox机器学习框架是一个用Java编写的开源框架,它允许快速开发机器学习和统计应用程序。该框架的主要重点是包括大量的机器学习算法和统计方法,并能够处理大型数据集。

版权和许可

版权所有(C)2013-2018 Vasilis Vryniotis。

该代码根据Apache许可证2.0版获得许可。

安装和版本控制

Datumbox Framework可在Maven Central Repository上使用。

该框架的最新稳定版本是0.8.1(Build 20170831)。要使用它,请在pom.xml中添加以下代码段:

<dependency>
        <groupId>com.datumbox</groupId>
        <artifactId>datumbox-framework-lib</artifactId>
        <version>0.8.1</version>
    </dependency>

该框架的最新快照版本是0.8.2-SNAPSHOT(Build 20180410)。要测试它,请按如下所示更新pom.xml:

<repository>
       <id>sonatype-snapshots</id>
       <name>sonatype snapshots repo</name>
       <url>https://oss.sonatype.org/content/repositories/snapshots</url>
    </repository>

    <dependency>
        <groupId>com.datumbox</groupId>
        <artifactId>datumbox-framework-lib</artifactId>
        <version>0.8.2-SNAPSHOT</version>
    </dependency>

框架的发布遵循语义版本控制方法。有关各种版本的详细信息,请查看Changelog。

文档和代码示例

使用Javadoc注释记录框架的所有公共方法和类。此外,对于每个型号都有一个JUnit测试,它清楚地显示了如何训练和使用模型。最后有关如何使用框架检查代码示例或官方博客的更多示例。

  • 代码示例:

https://github.com/datumbox/datumbox-framework-examples/
  • 官方博客

http://blog.datumbox.com/

预先训练的模型

Datumbox附带了大量预先训练的模型,可用于执行情感分析(文档和推特),主观性分析,主题分类,垃圾邮件检测,成人内容检测,语言检测,商业检测,教育检测和性别检测。要获取二进制模型,请查看Datumbox Zoo。

支持哪些方法/算法?

该框架目前支持执行多个参数和非参数统计测试,计算有关删失和未审查数据的描述性统计数据,执行方差分析,聚类分析,降维,回归分析,时间序列分析,采样和最常见离散的概率计算并继续分布。此外,它提供了几种实现的算法,包括最大熵,朴素贝叶斯,SVM,Bootstrap聚合,Adaboost,Kmeans,分层聚类,Dirichlet过程混合模型,Softmax回归,序数回归,线性回归,逐步回归,PCA和其他几种技术用于特征选择,集成学习,线性编程求解和推荐系统。

错误报告

尽管框架的某些部分已用于商业应用,但并非所有类别都被使用/测试。目前该框架采用Alpha版本,因此您应该期望在未来版本上对公共API进行一些更改。如果发现错误,请将其作为 Github官方存储库的问题提交。

特约

框架可以通过多种方式得到改进,因此欢迎任何贡献。到目前为止,框架中缺少的最重要的功能是能够从命令行或其他语言(如Python)使用它。其他重要的增强功能包括改进文档,测试覆盖率和示例,改进框架的体系结构以及支持更多的机器学习和统计模型。如果您对代码进行任何有用的更改,请考虑通过发送拉取请求来贡献它们。

致谢

非常感谢Eleftherios Bampaletakis在改进框架架构方面的宝贵意见。还要感谢ej-technologies GmbH为其Java Profiler提供许可证,并感谢JetBrains为其Java IDE提供许可证。

有用的链接

  • 代码示例

https://github.com/datumbox/datumbox-framework-examples/
  • Datumbox Zoo:预先训练的模型

https://github.com/datumbox/datumbox-framework-zoo/
  • Datumbox.com

http://www.datumbox.com/
  • 机器学习博客

http://blog.datumbox.com/

以上是关于(Java)开源机器学习框架的主要内容,如果未能解决你的问题,请参考以下文章

干货 | 科技巨头开源的机器学习框架:250万行代码,价值超8000万美元

LensKit<开源推荐系统框架Java;学习笔记

机器学习框架:开源的好,还是自研的香?

专知-Deeplearning4j深度学习教程01分布式Java开源深度学习框架DL4j安装使用: 图文+代码

不到1000行代码,GitHub 1400星,天才黑客开源深度学习框架tinygrad

微软开源机器学习框架Infer.NET