七个自动机器学习框架
Posted 21CTO
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了七个自动机器学习框架相关的知识,希望对你有一定的参考价值。
导读: 给各位介绍七个自动机器学习框架,希望有价值。
这些年,机器学习(Machine Learning)的使用率越来越高,模型给企业带来一系列机会,也给未来留下更好的畅想。但是,机器学习的建模流程时间长且复杂,人们仍然在寻求部署更多机器学习模型。
企业需要预测的特定数据集合时,传统的方法需要执行以下操作:
1、处理数据
2、定义技术特性
3、选择模型
4、优化超参数
5、对参数的训练
没有适用于所有任务的算法,数据分析人员需要为每个特定任务选择和配置算法。
另外,为了准备数据,需要进行如下步骤:
1、确定列类型,语义内容
2、检测集群分配和它的排名
对于IT企业来讲,花钱与花时间并非优势 ,自动机器学习(Auto Machine Learning)才更有效。
自动学习框架之排名
自动学习框架能够实现所有或几乎所有步骤的自动化,为企业提供准确的预测。它的最大优势就是能将很多业务流程和数据分析人员从琐事中解脱出来,把时间花在项目的创意方面。
Gartner曾经发布一个数据报告,它预测在2020年,40%的大数据专家将会被自动化机器学习所取代。
为此,需要我们现在未雨绸缪,从现在就开始学习自动化机器学习框架,并选择最佳模型以及所需的参数配置。
以下是我们精选的七款自动化机器学习框架,希望各位喜欢。
ML Box
ML Box一款基于Python的数据库,它提供如下之功能:
1、预读取,读取,清理和格式化数据;
2、选择特定功能并检测遗漏;
3、优化超参数
4、对预测最先进的模型进行分类与回归
5、进行预测与模型解析
ML Box最适合在Linux上运行,而Windows和Mac用户在安装时可能会遇到一点困难。
ML Box GitHub:https://github.com/AxeldeRomblay/MLBox
ML Box 文档:https://mlbox.readthedocs.io/en/latest/
Auto Sklearn
Auto Sklearn 是一个基于贝叶斯优化、元学习和组合构造的自动机器学习框架,用来查找类似的数据片断。
该软件包含有15种分类算法,还有14个预处理特征,用来定义正确的算法并优化其参数,精度超过98%。
Auto Sklearn特别适合中小型数据集,大型数据集的可扩展性略弱。
Auto Sklearn GitHub:https://github.com/automl/auto-sklearn
Auto Sklearn 文档:https://automl.github.io/auto-sklearn/master/
TPOT
TPOT在2018年8月被GitHub列为最受欢迎的自动机器学习框架。TPOT使用遗传算法来搜索特定任务实现的模型。
TPOT可以同时分析数千个管道,并提供Python的接口。
与 Auto Sklern相比,TPOT提供了自己的回归和分类算法。但是,由于它是一个基于基因编程的架构,每次运行相同的任务,模型都可以提供不同的结果。
TPOT GitHub:https://github.com/EpistasisLab/tpot
TPOT 文档:https://automl.info/tpot/
H2O Auto ML
http://h2o.ai
H2O Auto ML框架是深度学习用户的最佳选择,它可以执行大量需要同时执行多行代码之任务。
H2O使用统计机器学习算法,并有阶梯方式提升机器学习和复杂的学习系统。
H2O GitHub:https://github.com/h2oai
H2O 文档:http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html
Auto Keras
https://autokeras.com
Auto Keras是一款开源的深度学习框架,推动贝叶斯算法优化。此框架可以自动搜索复杂模型的体系结构和超参数
Auto Keras使用神经架构搜索(NAS)算法进行搜索,不需要深度学习工程师参与。
Auto Keras GitHub:https://github.com/keras-team/autokeras
Auto Keras 文档:https://autokeras.com/tutorial/overview/
Google Cloud Auto ML
Google Cloud Auto ML是谷歌云开发的自动机器学习与神经网络框架。它的图形用户界面(GUI)非常易于处理模型,特别适合对机器学习知识掌握有限的开发人员,让人们也能够处理业务所需的模型。
值得一提的是,Google Cloud Auto ML并非开源库,使用时需要付费,它的价值取决于训练模型时所花费的时间以及要预测的图片数据。
Google Cloud Auto ML的学习与开发是免费的。
Goolge Cloud ML文档:https://services.google.com/fb/forms/cloudautomlalphaprogram/
TransmogrifAI
https://transmogrif.ai/
TransmogrifAI是基于Apache Spark框架的Salesforce库,用于Scala语言编写的结构化数据。
TransmogrifAI可以帮助开发者实现深度学习型的准确预测,同时将过程缩短100倍以上。TransmogrifAI棤glks支持处理大规模数据集,亦能够处理Scala上的虚拟机集群。
TransmogrifAI GitHub:https://github.com/salesforce/TransmogrifAI
TransmogriAI 文档:https://docs.transmogrif.ai/
小结
自动化机器学习是企业努力提高性能,更快预测模型的重要工具。
通过了解7个自动机器学习框架,开发者可以根据业务需求和操作规模选择,让它来完成自己的自动化机器学习任务。
推荐阅读:
以上是关于七个自动机器学习框架的主要内容,如果未能解决你的问题,请参考以下文章