数据中台下半场:走向云原生
Posted 创业邦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据中台下半场:走向云原生相关的知识,希望对你有一定的参考价值。
2020年9月,伴随着云原生数据平台厂商Snowflake高调上市,“云原生”这个2013年就诞生的概念再度成为热词,被加入到众多数据平台厂商的广告语中。
是创业公司对资本圈风向的追随,还是重新看到了容器化、微服务等云原生技术带来的优势?亦或是因为时候到了——2020年,中国IT预算里超过50%的钱花在了云上,这不仅代表云计算已经成为了中国的主流,同时“非原住民”的数据问题也显得更加突出。
近日,在StartDT Day数据技术大会上,奇点云创始人、CEO张金银(花名:行在)公开发布奇点云全新的数据技术战略:跨平台,云原生,自主可控。
十个字,三个词,每一个词都代表着技术上硬碰硬的升级。在这其中,“云原生”再次被聚焦在舞台中央。
指针拨回8个月前,寻常的晚上,奇点云数据平台部负责人地雷收到了一封日报。日报来自平台部的运维工程师黑白,最后轻描淡写地加了一句话:“DataSimba容器化编排已实现。”
DataSimba是奇点云的数据中台产品,承担了企业数据治理、开发、管理、服务等职责,往下集成数据,往上搭载应用,也就是狭义上理解的“数据中台”。
地雷十分吃惊,容器化编排并不是团队安排给黑白的工作——当时,容器化编排还未排入roadmap(产品路线图)。它意味着两件事:
一,2020年疫情持续和业务爆发式增长的双重影响下,依旧有人在默默坚持,做长远的事。
二,在“云原生数据中台”的目标提出之前,DataSimba就已往实现云原生前进了一步。
刚刚接手DataSimba时,为明确未来的发展路径,地雷做了一个月的调研,发现“云原生”不只是新一波的buzzword而已:
“打个比方,‘数据运维’,它在市场的宣传口径里很少见到,因为这是苦活累活,没有什么漂亮的东西。但我们和客户的IT/运维同学是感同身受的——大数据集群规模大,进程多,非常需要微服务治理和其他智能运维技术。”地雷坦言,“云和大数据运维技术含量高,很多传统的运维工程师会面临比较大的学习成本。但是线上数据、计算和应用规模还在以每年N倍的速度增长。如果不采用CI/CD(持续集成持续交付),而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。”
而在存储和计算成本层面,存储海量数据、作业高吞吐高并发的数据中台也对存算分离提出了更高的要求——如果把Hadoop、Spark等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容HDFS协议,能够根据业务需求进行弹性扩容,从而大幅度降低成本,提高集群性能。
成本和效率问题,推动着数据中台必须走向云原生。这也意味着,云原生不仅仅是一个“技术议题”。
2020年秋,经过创始人、合伙人探讨,行在于奇点云内部正式提出“云原生数据中台是数据中台的未来”,DataSimba要成为云原生数据中台,要让客户享受到云基础设施的优势。
同期,地雷正式完成了DataSimba产品的排兵布阵:微服务对象体系、容器化、CI/CD、元数据管理、存算分离等云原生技术要素,由不同的产品经理分别把守,构筑起坚实的云原生技术结界。
此时,又有个新问题接踵而来:“云原生,是谁的‘云原生’?”
如果讲大数据领域的云原生技术,毋庸置疑,知名云厂商们比奇点云起步早得多,必然也成熟得多。
无论是存算分离,还是容器化、微服务,这些技术要素在云厂商提供的云原生产品中都是必备的,而且不断提供更精巧、更聪明的“语法糖”(Syntactic sugar),让客户觉得更好用。
“但那是云厂商的‘云原生’,不是客户的云原生。”刘莹说。
刘莹(花名:公主)是奇点云联合创始人、COO,毕业于复旦大学计算机系,曾任IBM全球副总裁总助、IBM大中华区行业销售运营总经理,原阿里云西南大区业务总经理,阿里云大数据创新业务代言人。
作为一个有着18年to B行业经验的“老业务人”,她坚定认为“客户认可”至上,杜绝闭门造车、“技术自嗨”。
打个比方,客户在充分享受云原生妙处的同时,从一朵云迁移到另一朵云的成本越来越高,不能自由地选择云厂商,而且不同云厂商之间还要分别派人、用不同的账号管理,这样的云原生还香吗?
没错,在奇点云,最早嗅到云原生跨平台必要性的或许是商务。
有一家全球领先的ODM公司,持续地为海内外客户提供有竞争力的硬件产品。奇点云在前期咨询时估算了其未来的数据量,必须要上云。
它的业态非常特殊,海内外的这几家品牌恰好都有他们自己的云服务,如果把数据放在A云上,B品牌不同意;如果数据放在B云上,A品牌不同意;如果把不同品牌的数据分头放,对于企业本身来说又大大增加了管理和分析成本,不利于未来数智化的发展。短期来看,企业只能找到一家目前还没有这块业务的云厂商C,把经营、运营等数据放在C云上,先把数据中台搭起来。
这同时也存在一个隐患,出于产品耦合性的考虑,企业越晚迁移,迁移成本就越大,而在组织层面,未来潜在成本的问题又没有落到任何一个人的KPI上,大家都不知道谁来解、怎么解。
“常有人说云资源像电力资源。但不同的是,有些地方产电很便宜,可工厂的选址是固定的,它不可能想搬就搬去电力便宜的地方。”刘莹说,“云资源则不一样,企业是可以迁移去更划算的地方的。客户应该有自由选择的权利。”
2020年7月,地雷向高管汇报DataSimba的roadmap时,“夹带私货”提到了多workspace这个构想。在会上,行在并无多言,而在会后给地雷发了个PPT,内容是几年前行在想做的DataSimba混合云方案。
两个“老技术人”一碰,地雷就明白了:“行在听懂了我的意思,哪怕这几年技术变了,我们的想法和方向是一样的。”
Talk is cheap, show me the code.
两三个月后,地雷带领团队“偷偷”地把多workspace在DataSimba上实现了第一版,再次向高管汇报。同时,一条从真实客户需求归纳出的结论,也自前线迅速传递至产品大后方:客户迫切需要支持跨平台的、中立第三方的云原生产品。
技术拓展商业边界,商业驱动技术升级。明确了客户需求,地雷在技术迭代上也更有底气。
在5月20日StartDT Day数据技术大会上,地雷介绍:
“DataSimba R3.0目前已实现跨云多域数据治理,支持海内外主流云厂商,包括AWS、阿里云、华为云、腾讯云、京东云等等,实现统一账号、权限、审计的多workspace的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。”
这意味着依托DataSimba,企业可以实现
分级多域部署
和跨云跨平台部署:
用户、权限及配置统一在主域上修改,从域即可自动同步最新数据;客户可以自由在不同的地区采用不同的云厂商进行部署,避免商业因素、地域因素、单一云厂商因素等对其数据能力建设的影响。在保证单个域资源独立的情况下,多个域之间使用统一的权限和账号体系,运维和管理人员就无需在不同平台间切换使用,工作效率也大大提升。
“这是因为我们选择和客户站在一起。”
行在毫不避讳地表示,“奇点云是标准的乙方数据智能技术供应商,服务于泛零售、金融、政府、制造、运营商等行业,所以有动力做这两件事:一,尽可能优化架构,降低数据应用在IaaS上的计算、存储成本;二,实现跨云数据治理,因此客户在云平台的选择上可以更加从容、更加独立。也就是,哪儿好用用哪儿,哪儿便宜用哪儿。”
相比跨平台、云原生,自主可控这块“硬骨头”则难啃得多。
有一天,地雷接到行在来电:“奇点云要做自己的引擎,要自主可控。”
“我以前在阿里云ODPS就是干这个的,ODPS团队是全阿里最贵的团队,一百多个高级技术专家,做这一件事。奇点云一向最贴近客户,很现实主义,我们适合做吗?”地雷放下手中的事,跑到角落里和行在争论了快一个小时。
地雷心里非常矛盾。曾在AI四小龙之一担任产品总监的他,其实切身体会过自主可控的重要性:“那时候上实体名单,我们突然啥都不能用了,不能用苹果电脑,也不能用Windows,甚至不能用我们常用的浏览器上网。”
但毫无疑问,自主可控的数据引擎有很高的技术门槛。时至今日,国内实现自主可控数据引擎的公司用一只手数都嫌多。
2020年7月,奇点云到一家金融机构投标。这家金融机构提到:“我们已经花钱买了CDH的版权,但如果美国宣布不允许中国公司用CDH,那我们可能营业都成问题。这能不能解决?”
这个问题像一颗手榴弹,炸到了行在和地雷心里。彼时,华为EDA和国内高校MATLAB相继被美国禁用,几乎每一家金融机构都有着类似的担忧。在这样的国际政治经济环境下,自主可控(Independence),也就是在技术和业务上保证可持续供应,成为了奇点云的必选项。
最终,还是客户让他们下定决心:“不能让中国企业发展在数据基础设施上被‘卡脖子’。”
2021年5月,奇点云正式发布其自主可控引擎StartDT-EMR。它是自有可控的、支持各个类型大数据Job和Service的计算和存储引擎,在技术和业务上保证客户数据基础设施的多样化、可替换、可迭代和可掌握,并保证对关键点的持续创新。
“这未必意味着100%国产或100%推倒从头发明轮子。相反,应该尽可能融入开放生态,符合工业标准。”地雷介绍。
行在则将奇点云的自主可控归纳为“开放的,可被客户掌握的,可以被替换的,可以迭代的”。
它不受国际政治经济环境的影响,同时也不受厂商的控制。“它不是一个黑匣子。当出现问题,客户不用抱着一个黑匣子等待厂商上门来修,客户可以自己看到问题所在,可以去迭代和更新。”
从阿里巴巴到奇点云,行在做过国内第一代DBA,搭过第一代数仓,创建过TCIF(淘宝消费者信息库)第一次打通消费者数据,也创建过阿里云数加平台(现DataWorks),把大数据能力外化给社会。
走过近20年的大数据之路,“技术老兵”行在从没放下他“普惠大数据”的野心。怀揣着数据技术的理想,旅途的终点始终指向客户。
在5月20日的StartDT Day数据技术大会上,行在首次对外披露了一个数字:NRR235%。NRR(Net Revenue Retention)指净收入留存率,“举个例子,我们2019年的新客户花了100块购买奇点云的服务,他在2020年还花了235块,继续购买奇点云的服务。这代表着客户对我们充分的信任和认可。”行在颇为骄傲地说,“作为参考,Snowflake在上市时NDR(收入为美元,即Net Dollar Retention),是158%。”
十个字的数据技术战略后面,还跟着一句话:“和客户站在一起。”
这个战略的提出仰赖于五年来客户的不断鞭策,从客户的需求中来,在DataSimba、数据智能产品套件、DataNuza等数据产品和服务中承接落地,又回到客户的实践中去。
奇点云把“机器智慧超越人类智慧的瞬间”称为奇点时刻:数据通过好的算法和应用创造价值,同时应用后又产生了更多有价值的数据,再次让算法和应用成长升级,赋能业务,形成一个越转越快的闭环,解放人类去思考创新。
很难说距离实现“奇点时刻”还有多久,好在奇点云还很年轻,脚踏实地之余,有足够的时间让他们仰望星空。