抛开 Hadoop 生死论,我们可以聊聊生态演进!

Posted ITPUB

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抛开 Hadoop 生死论,我们可以聊聊生态演进!相关的知识,希望对你有一定的参考价值。

点击蓝色字关注 "ITPUB" 一起玩耍哦~

作者 | 赵钰莹


2017 年,Gartner 的一份《2017 年数据管理技术成熟度曲线》报告极其明显得标识出 Hadoop 即将进入衰落席。对此,IT168 走访了国内一系列大数据厂商,在过去几个月,我们共同探讨了 Gartner 提出该观点的依据、用户对 Hadoop 生死存亡言论的看法、Hadoop 生态中各大组件的生命力以及其他可能替代品的发展现状,并且调研了 Hadoop 生态体系在国内数十家一线互联网公司及大数据厂商内部的应用现状。


在过去几个月的走访中,几乎所有厂商都在肯定 Hadoop 生态对大数据领域的重大基础作用以及 Hadoop 生态核心组件旺盛的生命力,我们也讨论了部分边缘组件的可替换性。如今,在单纯的生死存亡之外,我们或许应该更进一步了解 Hadoop 生态的演进过程及其对大数据领域的重大影响。


本期走访厂商——天云大数据。从大数据市场布道者,到践行者。天云大数据 (以下简称:天云) 是国内为数不多的大数据 PaaS 层组件研发厂商,其 BDP(Beagledata Platform) 平台是一款基于 Hadoop 生态体系的企业级大数据中间件平台。




抛开 Hadoop 生死论,我们聊聊 Hadoop 生态演进及组件研发 !


在 Hadoop 开源生态的基础上,天云提供面向新型计算环境的 PaaS 层技术框架,并自主研发了面向高并发、规模化、OLTP 的数据服务 “Hubble”; 面向日益复杂的关系,关系型数据库瓦解的,无法量化关联关系这些数据结构的表达 “Hilbert”。


基于对 Hadoop 生态的了解,天云认为 Hadoop 已不是单纯的技术选择,而是一个泛在的生态。企业应该将注意力从 Hadoop 本身转移到 Hadoop + 的演变方向上。在这个过程中,我们不再讨论 Hadoop 本身某一组件的优劣,而是应该考虑如何配合 Hadoop 生态的演进逐步发展自己的大数据架构。


既然,Hadoop 生态在大数据领域地位稳固,与其花心思研究其组件级别的优劣,不如将更多精力放在 Hadoop 生态演进以及自我大数据架构的优化上。虽然基于 Hadoop,但天云在复杂关键的操作上自研了一些组件,从内部实验室到客户现场,支持开源组件的同时,天云也在支撑一些大公司运维较少的组件,比如内存计算的 Presto、Drill。面向复杂的关联结构以及高并发的 OLTP 操作,天云主要在应用自研组件。据天云方面的描述,该组件的代码行数已达百万级,超越众多开源项目,比如 Hbase。


天云认为,Hadoop 未来发展还是泛生态的发展,它会是整个通用计算框架演进迭代的一个过程。国内现在多数企业在做应用开源组件的实施,但也有两三个厂商在做 PaaS 层的组件研发工作,比如天云大数据的 Hubble,就是一个面向高并发、规模化、OLTP 的数据服务。


Spark 与 Flink 尚不具备与 Hadoop 叫板的实力,但合作或许可共赢 !


即便坚定,但面对 Gartner 的报告,我们还是应该保留一份严谨,对于 Hadoop 可能的竞争对手——Spark 和 Flink,天云也给出了自己的理解。


早在 2012 年,天云就参加了在硅谷举办的 Hadoop 大会,当时 Hadoop 之父已经提出一个概念,“Apache Hadoop forms the kernel of an operating system for Big Data,So, narrowly speaking, Hadoop alone is an operating system.” 也就是说,“Apache Hadoop 构成了大数据操作系统的内核。所以,狭义地说,Hadoop 就是一个操作系统。” 天云认为,Spark 虽然不沉淀在 HDFS 上,但也是整个生态的组件之一,并不会与 Hadoop 构成直接竞争关系。


至于 Flink,虽然其团队成员多在欧洲导致其公开交流并不多,但 Flink 对复杂业务逻辑的表达非常清晰,Flink 之父 Kostas Tzoumas 很早就提出 “fully unifying the, now separate, worlds of “batch” and “streaming” analytics.” 的说法,这意味着 Flink 正是用统一的方式来分析批量和流,这正好补足了 Hadoop 的短板。


总结来看,相比于 Hadoop 生死的言论,天云大数据更关心其 PaaS 层大数据组件的研发工作,更关心 Hadoop 整个生态未来的演进方向,希望在 Hadoop 的基础上打造更符合国内大数据环境的产品。至于 Spark 和 Flink,天云似乎更倾向于合作共赢的方式,这倒也应了不少用户的心意。


抛开 Hadoop 生死论,我们可以聊聊生态演进!

抛开 Hadoop 生死论,我们可以聊聊生态演进!

数领先机 智赢未来

DTCC2018

中国数据库技术大会(简称 DTCC)是国内数据库及大数据领域规模最大、最受欢迎的技术交流盛会,每年一届。自 2010 年以来,迄今已成功举办了八届,累计参与人次达到 20000+。DTCC 每年都将邀请百余位行业专家,就热点技术话题进行分享,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。


2018 年 5 月 10-12 日,第九届中国数据库技术大会(DTCC2018)将如约而至。本届大会以 “数领先机 • 智赢未来” 为主题,设定 2 大主会场及 20 个技术专场,邀请来自国内外互联网、金融、教育等行业百余位技术专家,共同探讨 Oracle、MySQL、NoSQL、大数据、机器学习、区块链、数据可视化等领域的前瞻性热点话题与技术。


点击左下阅读原文,立即购票~

以上是关于抛开 Hadoop 生死论,我们可以聊聊生态演进!的主要内容,如果未能解决你的问题,请参考以下文章

hadoop生态--ElasticSearch--ES操作

Chapter7 Hadoop架构架构演进与生态组件

Hadoop平台的基本组成与生态系统

论各类BI工具的“大数据”特性!

论各类BI工具的“大数据”特性

[转帖]今天我们来聊聊机框式核心交换机硬件架构演进