云原生数据仓库:Apache Kylin 的新使命

Posted InfoQ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云原生数据仓库:Apache Kylin 的新使命相关的知识,希望对你有一定的参考价值。

Apache Kylin 刚过完 5 岁生日,这个耀眼的“少年”以其惊人的成长速度吸引了一大波拥趸和忠实用户。

回到五年前,还鲜有中国项目在国际开源社区崭露头角,作为首个中国人主导贡献到 Apache 基金会的顶级项目,Apache Kylin 拉开了中国人领导开源项目的序幕。

如今,开源与商业的投资和创业热潮展现了大家对开源方式和商业模式的认可,越来越多的技术团队愿意在开源领域做贡献,他们踊跃地参与到国际社区,在国际舞台上展现自己。

作为中国首个顶级开源项目 Apache Kylin 的创始人,韩卿一路见证着社区的发展壮大和产品的迭代更新,带着“在国际基础软件领域立足并领导行业”的信念创立了 Kyligence 公司。在这个过程中开源的 Kylin 凭什么立足行业、赢得用户和开发者的认可?Kyligence 在商业化和开拓全球市场上又是如何闯关的?

带着这些问题我们采访了 Kyligence 联合创始人兼 CEO 韩卿,以下为采访正文。

1技术快速更迭, Kylin 如何保持生命力?

2020 年 9 月,Kylin 4.0 Alpha 版本正式发布。

全新的构建引擎和查询引擎极大地提升构建性能和查询性能,解决了查询单点问题等痛点,去除了 HBase 依赖,很大程度地解决了 Kylin 的难运维问题,也使得 Kylin 的计算和存储分离变为可能。

韩卿介绍道,Kylin 4.0 的架构升级主要体现在三个方向上,云原生、云存储,以及全功能。“首先我们希望 Kylin 能够变成云原生,不再依赖 Hadoop 本身;第二希望存储更加灵活,我们用复合云的存储方式来统一存储数据;第三点希望把实时数据整合进来,提供全功能的 OLAP 能力,让用户在一个平台、一个模型、一个架构上得到需要的所有能力。”

坚持以技术为初心固然可贵,但在快速迭代的过程中永远不可能一招鲜吃遍天。什么样的技术才是真正具有生命力的?韩卿提到了几个重要的点。

第一,该技术解决的是不是一个通用性的问题,解决通用问题的本质并没有变,只是在底层实现的逻辑上,出现了方式方法上的变化。

第二,该技术是不是具有普适性,能不能应用在不同行业、不同区域、甚至是不同国家。拿 Kylin 来说,它由互联网公司发起,如今应用在金融、制造业等领域,被各个国家的用户所喜爱,这说明它吸收新元素的过程非常快。

第三,技术社区是否有新鲜血液,社区的带头人是否能一直把握行业节奏、走在前面,这也是具有生命力的重要体现。

保持对整个行业的技术嗅觉,来为客户提供底层实现变成了 Kylin 在发展中践行的主线。

Kylin 这一路走来用到了 Spark、Hadoop/HBase、Flink 好几种技术框架,韩卿表示:“Spark 刚刚出来的时候,我们并没有立即切换过去,等 Spark 到 2.0 阶段时,Kylin 的成熟度也已足够,那个时候切换到 Spark 带来了性能提升,也解决了之前的一些问题。之后无论是引入 Flink 还是云原生的变化,我们做的事情本身没有变——从客户的视角出发,通过新的技术引入不断迭代底层架构,为客户提供不同的选择。”

2拥抱云原生,绝不是炫技

在过去十年中,云原生理念和技术在不断发展,相比较目前全球 IT 行业在云上的投入不足整体投入的 4%,云的未来给市场带来了无尽的想象空间。

在云原生与数据仓库技术的双重加持下,前段时间 Snowflake 上市引起轰动,这为市场带来信心的同时也验证了数据分析和云原生的巨大价值。为什么云原生的数据仓库会得到那么大的青睐?

韩卿表示:“我觉得核心在于云原生数据仓库实际解决了企业痛点,像 Snowflake 本质上解决的是成本问题,我们看到 Snowflake 为代表的云原生数据仓库运维成本非常低,另外我觉得他们做得最好的一点是,Snowflake 并不是用已有技术去做云的适配,而是基于云或云原生的生态假设,重新去设计了技术栈,这是让我们很受启发的一点。我们在云原生数据库的路上也将不断探索,寻求突破,助力企业数字化转型。”

事实上,为了拥抱云原生,一直被拿来和 Snowflake 对比的 Kyligence 也做了很多,相比较两三年前面临着不同云的选择,如今 Kyligence 在方向上清晰了许多。云原生改变的不只是技术,最终还要落到业务层面,它需要给终端用户带来尽可能多的便利和丰富功能,给用户提供快速迭代、安全可靠、弹性扩展等价值。

在过去的一年里,Kyligence 推出了云原生的版本 Kyligence Cloud,该产品已经支持Azure,AWS,正在积极做Google 云平台,腾讯云、阿里云等云平台对接,也受到了微软、UBS、Costa、宝洁等国际客户的欢迎。

Kyligence 在云上做了非常多的功能来使其轻便化,例如把原来的一些能力拆成更加小的服务。另外其在底层逻辑和算法层面也有很大突破,大部分产品支持批量数据进入,但对实时数据的支持却不足,事实上 Kyligence 的 3.0 版本就早已支持实时数据,Kyligence 一直在满足用户需求的同时不断迎接挑战。

“当所有人都去做一件事情,你会发现最终市场并没有那么好。但当你做到了很多人认为做不到的事情,你的竞争优势就会凸显出来,这件事也更值得去做。”

在韩卿看来,所有的技术选型都是 trade off(权衡),没有一个架构适合所有需求,因此大家需要根据不同的场景和需求来选型,Kylin 预计算等技术在这时候就发挥了很大的作用。另外基于 trade off ,大家必然面对选择和取舍,用放弃的一丁点灵活性换来架构的高性能、高并发、易于上手和易于使用,这会带来更大的竞争优势。

在技术方向上,韩卿有着自己的看法:“我们从不着急采用新的技术方向和流派,只有等技术成熟的时候我们才会布局。相比较挑选技术方向,我们更看重产品的底层技术框架是否能为客户带来真正的价值,秀技术能力本身并不符合公司的长远价值,因为我们做得更多的是企业服务,并不需要炫技。”

3加速商业化,建成中国自己的全球顶级数据平台

Kylin 和 Kyligence 的差异究竟在哪?

究其本质,Kylin 开源版本是在超大规模的数据集上提供查询分析能力,解决的是性能问题,而商业版 Kyligence 在企业内部部署和使用时需要不断降低门槛,主要解决的是效率问题。

对于两者的差异,韩卿有个精彩的比喻,“可以把 Kylin 看作一台发动机,你可以把它打造成拖拉机或者劳斯莱斯,而 Kyligence 是量产的跑车,作为标准化的产品,它的核心是商业生态,对于车来说,你在买车的同时也购买了 4S 店的服务、保险、金融租赁等上下游所有服务。因此实现商业价值是必然的趋势。”

Kyligence 在商业化的过程中首先解决了效率和定位问题,而它在商业上的核心创新点是 AI,“我们希望通过机器学习去完成以前需要消耗大量人力物力的工作,不管是做 ETL,做数据的准备,还是构建建模,都是我们在商业上的差异化部分。”

“我们发现做企业服务的难点远远超出技术本身,涉及到的运维、监控、安全、内部合规等问题给我们带来很大的挑战,相比较解决诸如此类琐碎复杂的问题,大家都愿意解决技术难题。这要求我们在心态上从激进调整到平稳,踏实地做出更加稳定、更加好用的产品。”

在商业化过程中,打造全球顶级数据平台一直是 Kyligence 的方向,那究竟发展成什么样才能称之为全球顶级数据平台呢?

在韩卿看来,成为全球顶级数据平台得符合以下几个标准:

第一,大部分公司计划做数据分析的时候,第一个想到 Kyligence,这是成为全球顶级平台目标的第一个标准。第二,Kyligence 的客户来自于全球各大洲,并且受到各个地方 TOP 用户的欢迎。第三,客户认可 Kyligence ,基于 Kyligence 有一些非常深入的应用,并为企业带来业务上的提升。

在纯软件上面,Kyligence 已经走在前面了,但是背景差异、文化冲突,海外客户对于中国本身产品技术上的偏见都给 Kyligence 全球化带来了极大的挑战。

面对质疑和挑战,韩卿给出了自己的解决方案:“我觉得与全球不同用户达成伙伴关系的核心是信任。Kyligence 应对的具体措施第一是保持透明,包括公司内部信息、财务数据、源代码等方面的透明;第二是保持简单,这体现在我们的价值观和体系上,我们希望通过这些努力让合作伙伴和客户认识并信任我们。”

4用户 + 社群,守住护城河

2017 年,韩卿带着团队去伦敦参加大数据展会,很多欧洲用户喜形于色地跑到展台分享他们作为 Kylin 用户的使用体验,争相和 Kylin 团队合影,这极大地增强了韩卿和团队成员的自豪感。随后在法兰克福、巴黎、马德里等地的参展经历也让韩卿备受鼓舞:“一个来自中国的开源技术影响了这么多的国际公司的技术发展,这变化让我非常欣慰。”

“原来你们是 Kylin 的作者”这样看似简单的认可也让韩卿认识到用户是 Kylin 最好的名片。

基于现有的平台、业务和用户使用习惯,从客户的角度出发去解决问题,通过打造平台给客户提供多样能力,这是 Kylin 给大家提供的新思考方式。

“基于用户,我们知道大家关心什么,也知道行业变化在哪,除此之外我们还获得了很多行业见解和认知。用户已经成了我们产品创新和产品布局的思路源泉。”

举个例子,开源领域流批一体出现得很早,但落地案例却不多见,核心问题在于,企业数据业务在规模化落地时才发现,实时带来很高的成本。因此让用户根据不同场景和需求在一套架构上选型很重要,在不过多考虑成本的情况下选择用什么来支持批处理、流处理、批流一体的处理?Kylin 的全面OLAP能力为场景化的各异需求提供了充足的想象空间。

大数据成为企业最重要的资源之一,企业数据分析需求也与日俱增,数据分析有助于提供个性化服务的同时也为企业带来了核心竞争力。基于客户需求,从整个技术点上进行突破,已经开始过渡到未来的架构方面,甚至是整个生态。

“我觉得不管是 Kylin 的商业版还是开源版,在今后都将扮演越来越关键的数据决策角色,会让越来越多的客户认知到,它在架构的云化方向上已经走在前沿,它的数据分析不断增强,已经变成了实施标准,已经具备成为各个公司在数据分析层面的必选项。”

提到工作重心,韩卿表示:“我现在的工作重心主要在两方面,一方面是整个公司的运营和规划,另外一个重心是在开源社区和商业客户的拓展上。”

谈起开源社区的变化,韩卿表示:“现在全球有将近一千多家公司在使用我们的 Apache Kylin,Kylin 作为基础组件服务了很多客户和开发者。除了国内的用户和社区参与者,我们也看到很多欧洲、日本以及美国的参与者和贡献者。随着越来越多的人使用,越来越多的新想法和新鲜血液涌入,开源项目就形成了它的核心竞争力和独有的生命力。”

5写在后面

随着越来越多的公司和团队参与到 Kylin 的开源贡献中, Kylin 也越来越成熟,日益进化为下一代技术和架构。在五周年的时间点上,韩卿对于社区未来的发展表达了自己的期望:“我希望开发者能够通过我们的社区走向世界,能够加速参与到全球开源社区里,让全球看到我们的能力。”

“Five Years and Accelerating。”作为 Kylin 五周年的关键词,“ Accelerating ”象征着 Kylin 过去的蓬勃发展,也预示着未来的不断远征。




点个在看少个 bug 

以上是关于云原生数据仓库:Apache Kylin 的新使命的主要内容,如果未能解决你的问题,请参考以下文章

Kylin 新定位:分析型数据仓库

开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下

apache kylin2.10在原生hadoop集群上安装

扩展Apache Kylin流数据源以对接阿里云LogHub的实践

小米大数据:借助Apache Kylin打造高效易用的一站式OLAP解决方案

Apache Kylin 概述