阿里云发布的数加是什么鬼
Posted dtstack
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云发布的数加是什么鬼相关的知识,希望对你有一定的参考价值。
注:本文首发于袋鼠云公众号
2016.1.20,阿里云在云栖大会上海站的主题是DT World,这是一场规模宏大的大数据产品的发布会。发布的近20款产品, 几乎都出自阿里巴巴一个存在已久的团队:数据平台事业部,从2015年初开始变成了阿里云数据事业部。这个团队存在有多久?可以说比阿里云本身还要久。这个团队最早和DBA在一起,负责人是淘宝的第一位DBA七公,后来DBA归属运维,数据平台则在七公的带领下迅猛发展,底层的平台历经多次升级,集群规模也从最初的4个节点Oracle RAC到20个节点Oracle RAC,再从数百名到数千台Hadoop,直到目前的数万台ODPS,并且在CDO时期整合了当时集团各个BU最强的一帮大数据人才,成为了承载集团大数据梦想的数据公司。这中间的故事,几个团队的纠缠不休,几个项目的惊心动魄,估计讲个几天几夜都毫无尿点。
还是略过历史,回到数加吧。前面说到数据平台事业部是承载集团梦想的数据公司,这个梦想是很远大的,就像某年年会的口号说的,是星辰大海。下要做好大规模计算的分布式平台,中要做好集团数据人的开发平台,上要挖掘集团数据的商业价值,三路大军浩浩荡荡,场面颇为壮观。但细看之下,却好比段誉同学通过北冥神功吸收了好几股真气,在没有融为己用之前,真气乱串导致偶尔是神功盖世,偶尔是武功尽失。
直到2015年初,独立山头的数据平台事业部,变成阿里云旗下数据事业部,名字相差不多,但其实角色发生了很大的变化。阿里云总裁孙权同学对新的数据事业部提出了内部创业的想法,希望将过去几年主要为集团内提供服务的大数据平台能够正式全面的对外商用,并通过内部的创业工作室模拟外部客户来打磨平台。这是一个很大胆的想法,对于大部分都是技术人员的数据事业部来说,不啻于一场大革命。从15年4月份开始,数加业务团队、数加技术团队和内部几个创新工作室相继成立,并搬到了当时还没有什么人气的云栖小镇办公。我也是这个时候开始正式负责数加技术团队,有幸和一群饱经磨难的数据同学一起感受了一段内部创业的过程。
从一开始,我就把数加定位成大数据业务平台。在数加之前,集团内部实际上已经有两个大数据的平台,一个是面向集团内部的在云端,另外一个是面向外部电商场景的御膳房。这两个平台的底层技术组件基本是一致的,2014年底的5K+项目也致力于让两者的底层完全统一,内部称之为一个Base,多套部署实例。既然已经有一个对外的实例了,那么数加做为业务平台,是基于已有的御膳房实例来构建,还是单独再部署一个实例呢?这是要做的第一个决定。从技术上来说,当然应该选择基于已有实例来做,这样可以轻装上阵。但实际情况是御膳房针对电商场景做了比较多的业务逻辑封装,有点类似于聚石塔在电商场景下对阿里云的封装。这种封装在电商场景下是合理的设计,但要面向通用的云计算和大数据场景,就有很多不尽合理的限制,甚至在最底层的租户模型上,当时也有一些设计冲突。
所以我们做的第一件事情是重新梳理租户模型,在此基础上部署了一套新的Base实例。现在回头来看,这一年能够快速的把数加平台搭起来,能够在这次DT World上顺利发布,最初的决定是对的,省去了很多的依赖和扯皮,并且从一开始就把租户这个最核心的依赖做对了。但数加是颗尚未发芽的种子,面对已经有一颗树开始抽枝散叶的情况下,这是非常不容易的,这中间至少给两位CXO级别的老板写过邮件才得到最终的资源和授权。所以我一开始跟团队强调,现在不要提什么平台,没有足够多的客户也不要想什么平台,先踏踏实实的做好工具产品。
2015年4月还发生了另外一件事情,我开始跑步了。没多久数加在产品方向上基本确定了要做新的计费模型、服务商模型和数据服务市场等主要的事情。老张和我讨论团队的口号的时候,我们达成了三点:成全他人、莫向外求、跑马拉松。其中跑马拉松是我提出的,一方面是让团队做好持久战的心理准备,另外一方面我也给自己定下跑马拉松的目标。到数加发布为止,我一共跑完了三个半马一个全马,想想当年在学校跑1500米都要死要活的,只要有目标,没有什么不可能。
简单的八卦故事到这里应该告一段落了。我在2015年11月从阿里云离职,和几个前同事一起创立了袋鼠云。很多人问为什么离职?数加当时虽然做得辛苦,需要从法务到财务到底层的Base/ODPS技术,到计费团队,要做一点事情都需要从最上面的业务一直贯通到最下面的技术运维,但总体上目标是清晰的,前景是光明的,数加这个小团队自身相处得也很融洽。但也正是在做数加的过程中,我看到了云的趋势、计算的趋势和数据的趋势,也坚信面向企业的云服务和大数据有一波新的机会。我已经在阿里八年多,历经淘宝DBA、手机淘宝数据产品和数据事业部数加团队,收获很多,也错过了很多。如果再多待几年,还是会有不错的收入,头顶着平台的光环也可以吹吹牛B,但可能会失去从头开始的勇气。错过这波机会,未来回头来看的时候,我想我会后悔的。当然,创业维艰,失败的概率很大,但至少我经历过的选择都从不后悔。
那么,说了这么多,到底数加是什么鬼?当天发布的底层计算引擎有类似Hadoop/EMR的ODPS(发布会上宣布改名为MaxCompute)、有类似Storm的StreamCompute、有做实时多维计算的Analytic DB、有机器学习的PAI。计算引擎之上,有数据开发者友好的Web IDE、有业务任务的调度系统、有元数据管理等一整套操作界面。对于大部分做大数据开发的同学来说,底层的计算引擎大部分情况是不可见的,日常需要操作的主要就是这层界面,也就是http://data.aliyun.com这个网站。这两层产品相互依赖,可以说是数加的平台产品。基于这个平台,不管是阿里内部,还是外部的数据开发者,都可以来做大数据的开发和应用。大会上发布的其他产品,包括移动数据分析、DataV可视化、规则引擎、推荐引擎、BI报表、应用托管、郡县图治等,虽然看起来名目繁多,实际上只是平台之上进行补充和丰富的工具、服务以及典型的大数据应用案例。阿里云的主要目标应该是做好下面两层平台,并将平台的能力更多更快更好的开放出来,这两层才是阿里云大数据的核心竞争力,上层开放则可以形成丰富的生态,未来应该有更多的第三方基于数加平台来开发和提供丰富的大数据服务和应用,这是我对这个事情的理解。
所以我们袋鼠云目前正在开发的一款大数据应用型的产品,将来也希望能够成为这个生态里的一个小花朵,在我曾经为之付出汗水的平台上顺利的结出果实。后面如果在繁忙的创业过程中能够抽出时间,也会更多的分享基于数加做大数据的技术文章。
以上是关于阿里云发布的数加是什么鬼的主要内容,如果未能解决你的问题,请参考以下文章
基于阿里云数加MaxCompute的企业大数据仓库架构建设思路