阿里开源的深度学习框架XDL,究竟如何理解?
Posted 新经济研究会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里开源的深度学习框架XDL,究竟如何理解?相关的知识,希望对你有一定的参考价值。
前几天“机器之心”透露了一则消息,阿里巴巴把自己用来作为大数据营销平台广告业务的技术框架,即深度学习框架X-Deep Learning(以下简称“XDL”)开源了。阿里还声称,这是“业内首个面向高维稀疏数据场景的深度学习开源框架”。一般我们如果看到“首个”后面接这么多形容词,就要打一个问号,形容词越多,范围越窄,你总能找个适合自己的那个排序方式把自己排在首位。
可惜的是,即便如此,阿里这个XDL也称不上“业内首个”。远的不说谷歌的TensorFlow,国际上比较流行的PyTorch、Caffe或者Theano,国内之前百度也早就发布了深度学习框架PaddlePaddle,能够处理和进行大规模高维稀疏数据学习训练。在学术界,也有各类机构比如北大机器学习的马超博士研究团队公布的开源的大规模稀疏数据机器学习库xLearn。
真正的深度学习框架
阿里这次打一个擦边球,说自己开放的深度学习开源框架是针对高维稀疏数据场景的,可能是和腾讯、小米的移动端开源深度学习预测框架区分开来,毕竟,后两者都是以机器视觉智能为主的前向计算框架,两方侧重不一样。
腾讯开源的深度学习项目NCNN是腾讯社交网络事业部公布的,也是腾讯优图实验室的第一个项目。基于NCNN,开发者能够将深度学习算法移植到手机端执行,从而开发APP。NCNN的许多应用方向都是在图像方面,比如自动美颜、照片风格、超分辨率和物体识别等等。
小米的开源深度学习项目Mace则是专门为移动设备优化的模型预测框架,主要特点集中在速度、功耗、系统响应、初始化延迟、内存占用和模型保护等方面。Mace的应用主要是相机的人像模式、场景识别、图像超分辨率等等。这些开源的项目帮助手机厂商更好地使用照相功能。
但是,真正的深度学习框架,结构应该是非常完整的。针对大规模高维稀疏数据场景只是深度学习框架的一个应用,深度学习框架之所以称为框架,必须支持从建模、训练到最后部署的全部环节,必须是全功能的。而目前,国内唯一一个完整的、开源开发的深度学习框架,也只有百度的PaddlePaddle而已。
阿里的这个XDL,目前看来只是支持大规模高维稀疏数据处理的一个解决方案,论完整性,谈不上是一个深度学习框架。打个比方,完整的深度学习框架是一个精装修的房子,拎包就可以入住;XDL相当于一张沙发,虽然可以睡,但当房子来住还是不行的。
大规模高维稀疏数据的应用场景
在互联网场景中,大规模高维稀疏数据是常态,一般出现在众多核心应用场景中,比如广告、推荐、搜索等,是大多数互联网企业的数据应用模式。
阿里这次推出XDL的是二级部门阿里妈妈,许多读者不熟悉阿里妈妈,其实这个业务单元占了阿里超过一半的收入。阿里妈妈的核心是为阿里的客户提供数字营销服务,这里面就包括广告、搜索、推荐。读到这里我想大家可能会想到,像谷歌、百度这样的公司在广告、搜索、推荐方面不是更有经验、技术更成熟、数据样本更大吗?这完全是他们的本行啊。所以说,依托于上述业务发展起来的大规模高维稀疏数据处理,PaddlePaddle也好,TensorFlow也罢,自然是做得比XDL要好得多。
其实,深度学习框架要做的好,离不开搜索或者信息流这样应用场景,它既要求样本数量非常大,还要求特征维度非常多(通常高达千亿甚至万亿以上),并且还有时效要求高、更新速度快等等特点。
本身搜索和信息流产生的数据和电商搜索处理的数据规模根本不在一个量级上面,所以一个很自然的结论就是不管XDL如何做开发,数据基础约束了它的智能化水平。虽然XDL提高了阿里客户广告投放的效率,但XDL本身还是有局限性。当年阿里巴巴战略上放弃了雅虎搜索,对XDL至少是有一些影响的。
深度学习框架的落地应用
人工智能成为引导下一轮产业和技术革命的基础技术,已经成为产学研各界的共识。要抓住人工智能的机遇,深度学习框架是一个平台级的入口,这也是为什么中国的科技巨头纷纷在这一领域大张旗鼓的原因。
前面我们已经提过,腾讯、小米以及最近的阿里,还有稍早之前的华为,都在以各种名义推出自己的深度学习框架。但深究下来,可以发现,这些公司推出的,都是一个接一个的解决方案——用到了深度学习的技术,解决某个层面的应用问题。
所以说现在是雷声大雨点小。本身上述公司的深度学习解决方案还不成熟,在产业界的应用也是屈指可数。整个人工智能产业的发展还在一个比较初级的阶段。阿里妈妈这次发布XDL,源自于其在广告业务上的积累,现在将这种技术基础开放出来供其他公司使用——这里面当然有培育产业生态的考虑,更有可能的是,通过其他方面的应用,积累数据,训练出更为聪明的人工智能。
一个是技术的成熟度,一个是落地的商业化,这两点是衡量科技公司的深度学习框架是否有竞争力的标准。就国际国内来说,科技公司的深度学习框架在产业度的接受度还不是很高,都在创业阶段,还有很长的路要走。
原创文章,欢迎转载。
以上是关于阿里开源的深度学习框架XDL,究竟如何理解?的主要内容,如果未能解决你的问题,请参考以下文章
技术阿里开源深度学习框架XDL,面向高维稀疏数据,支持千亿参数训练规模
开发 | 阿里巴巴开源深度学习框架 X-Deep Learning,引领高维稀疏数据场景的深度学习标准