流批一体机器学习算法平台

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了流批一体机器学习算法平台相关的知识,希望对你有一定的参考价值。

发布会传送门

产品详情

针对正在兴起的机器学习广泛而多样的应用场景,阿里巴巴计算平台基础算法团队在2017年开始基于Flink研发新一代的机器学习算法平台。该项目名称定为Alink,取自相关名称(Alibaba, Algorithm, AI, Flink, Blink)的公共部分。经过三年的投入研发,Alink在算法性能、算法规模、算法易用性等方面取得了不错的成果,并实现了产品化。这使得数据分析和应用开发人员能够轻松搭建端到端的业务流程。

在后面的篇幅中,我们将从算法功能、算法性能、用户界面、可视化等方面对Alink做一个系统的介绍。

  • 算法功能

Alink拥有丰富的批式算法和流式算法,能够帮助数据分析和应用开发人员能够从数据处理、特征工程、模型训练、预测,端到端地完成整个流程。如下图所示,Alink提供的功能算法模块中,每一个模块都包含流式和批式算法。比如线性回归,包含批式线性回归训练,流式线性回归预测和批式线性回归预测。另外,Alink算法覆盖分类、回归、聚类、评估、统计分析、特征工程、异常检测、文本、在线学习、关联分析等经典领域,是一个通用的机器学习算法平台。

技术图片

目前,Alink已经被阿里巴巴集团内部多个BU使用,并取得了不错的业务提升。特别是在2019年天猫双11中,单日数据处理量达到 970PB,每秒处理峰值数据高达 25 亿条。Alink 成功经受住了超大规模实时数据训练的检验,并帮助天猫产品推荐的点击率提高了4%。

  • 算法性能

下图给出的是一些经典算法与Spark的性能对比,通过该图可以看出,Alink在大部分算法性能优于Spark,个别算法性能比Spark弱,整体是一个相当的水平。

技术图片

但是,“在功能的完备性方面,Alink更有优势”,Alink除了覆盖Spark的算法,还包含流式算法、流批混跑、在线学习、中文分词等。

  • 用户使用界面

为了提供更好的交互式体验,我们提供两种用户使用界面:webPyAlink

首先我们介绍一下web界面。Web界面提供拖拽的方式创建试验,通过对每一个组件进行配置完成整个试验的参数配置。下图给出的是web界面创建的批式、流式、流批混合的试验。

技术图片

并且Alink可以支持节点的级别实验运行状态显示。在各个算法节点旁,我们用闪烁的小灯泡

以上是关于流批一体机器学习算法平台的主要内容,如果未能解决你的问题,请参考以下文章

阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink

机器学习平台带给QA的挑战

离线轻量级大数据平台Spark之MLib机器学习库概念学习

数据人不得不知的机器学习平台

爱奇艺机器学习平台建设实践

深度学习核心技术精讲100篇(三十三)-微博推荐算法实践与机器学习平台演进