大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台

Posted 过往记忆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台相关的知识,希望对你有一定的参考价值。

未来十年,企业数据管理模式将如何进化?Cloudera 的答案是 — 企业数据云。

在数据爆炸时代“掘金”

数字正在“吞噬”世界。

过去的十几年里,我们进入了一个数据爆炸、信息过载的时代。

数据规模在以惊人的速度增长。

2006 年,个人用户才刚刚迈入 TB 时代,当年全球共产生了约 180EB(1 EB = 1024 TB)的数据;2012 年,这个数字增长到了 3.7 ZB(1ZB=10 亿 TB)。

据国际权威机构 Statista 统计和预测,2020 年全球数据产生量预计达到 47ZB。而到 2035 年,这一数字将爆炸式增长到 2142 ZB。

数据规模爆炸式增长的趋势下,企业面临着如何高效、安全、稳定的管理数据的挑战。另一个挑战是,如何在数据的“汪洋大海”中,挖掘出数据的真正商业价值并更好地做出决策。

越来越多的企业在向数字化转型,转向数据驱动型组织,并希望从数据“矿山”中挖掘出宝藏。

麦肯锡曾在一份报告中得出结论,“数据驱动型组织获得客户的可能性会提高 23 倍,保留客户的可能性会提高 6 倍,盈利的可能性则会提高 19 倍”。透过这组数据可以看到,企业对数据价值的预期在提高。

企业对数据管理的需求也在变化。

如果以 2020 年作为时间节点,过去十年,用户需求主要在解决高效存储,同时处理大规模数据上。通过分布式的方式将数据分散在不同服务器上,以分而治之的方式来处理并发数据,避免网络传输带来的消耗与延迟等。

十几年前开源大数据套件 Apache Hadoop 就是为了解决海量数据的处理问题而诞生的。Hadoop 擅长海量数据分布式存储和分布式计算。在过去的十多年里,Hadoop 深刻影响了计算机界,一度成为大数据的“代言人”。

Hadoop 的红利也成就了两家公司 — 有“大数据先驱”之称的 Cloudera 和 Hortonworks。它们都是 Hadoop 的发行版提供商,双方各自在 Hadoop 基础上有自己的产品线。

成立于 2008 年的 Cloudera 是第一家 Hadoop 商业化公司,发布 Hadoop 商业版和商用工具,其核心组件 CDH 开源免费。Hortonworks 的产品是 HDP,组件和商业模式都采取全开源的模式。

在很长一段时间里,CDH 和 HDP 是市场上最为流行的两款开源大数据平台。

CDP ,下一代大数据平台

如今,用户对数据管理和分析有了新的需求,人工智能与机器学习技术的发展要求具备更强大的数据处理技术,更快速的大数据分析能力。云计算的快速崛起为大数据注入了新的推进剂。

未来十年,现有的使用架构与解决方案还将面临新的诸多挑战,如庞大集群规模部署时间长,企业实际应用中缺乏高效数据隐私与安全管理,数据灾难恢复能力弱,多云及混合云跨云管理繁琐等。解决这些挑战,要在现有技术架构的基础上进行延展。

Cloudera 意识到,需要开发下一代数据产品来帮助企业应对未来的商业挑战。

2018 年 10 月, Hadoop 生态系统发生了一件轰动性的大事,Cloudera 与 Hortonworks 宣布合并。合并后的公司采用 Cloudera 品牌,定位为企业数据云提供商。

2019 年 6 月,Cloudera 和 Hortonworks 合并后推出了全新一代的数据平台产品 — CDP(Cloudera Data Platform)。

CDP 是世界上第一款企业数据云平台产品。其是 Apache 开源社区的 30 多个开源项目,经过研发、测试、整合后提供的基础的大数据运营环境,易于部署、管理和使用。

CDP 是合并后的 Cloudera 多方权衡后所做的价值最大化的选择。CDP 结合了 Cloudera 原来的产品 CDH 和 Hortonworks 原来的产品 HDP,把 CDH 和 HDP 两条产品线里最优势的部分进行整合,并在技术堆栈中增加了新功能,并对已有技术提供了增强功能。

但,CDH 和 HDP 原来的用户将何去何从?

此前,Cloudera CPO Arun Murthy 曾表示,Cloudera 会在 2022 年前继续支持 CDH 和 HDP 两条产品线,给用户一个过渡期。原有的 CDH 和 HDP 用户均可通过升级至 CDP 获得诸多新功能。也就是说,在 2022 年全部用户都将迁移到 CDP 上来。

Cloudera 数据架构的迭代,透视出了数据管理方式的转变。

Cloudera 在 Hadoop 基础架构下发展出的商业版 CDH,是第一代架构的代表,主要关注在本地部署云上集中同位的存储和计算以及大型共享集群 ;Cloudera 认为的第二代架构,主要关注在公有云上的存储与计算解耦和多集群,例如 Amazon EMR 。

Cloudera 目前提出的平台方案 CDP 被认为是第三代架构,主要关注在多云以及混合云上的存储与计算解耦,多租户以及容器化的 SaaS 体验。

拥抱云计算的浪潮

云与 AI 时代的到来,为当下的数据存储,数据分析带来了一些颠覆性的变革,企业上云已是大势所趋。

审时度势之下,Cloudera 也决定拥抱云计算的浪潮。

Cloudera 在原有产品线的基础上作了大刀阔斧的革新,最关键的是其部署形态发生了根本性的变化,CDP 是基于云的,它可以在任何基础架构上运行,不管是在公有云、私有云,混合云,还是公有云上的任何一种云,都可以来运行 Cloudera 的数据平台。

Cloudera 在多云以及混合云的使用方面提出了很多新的理念和实践,如私有云对象存储标准,数据存储与数据处理的集成,混合云体验等。CDP 可以跨 AWS、Azure、Google 等主要公有云架构进行数据管理。无论数据位于何处,企业都能够跨多个云处理复杂的数据流程、管理数据并实现多功能分析。

企业采用云服务可能会带来数据管理方面的挑战,因为数据可能被存储在孤岛中,从而使企业难以在所有 IT 环境中发现、获取、信任和兼容数据。

此外,还存在被单一供应商锁定的威胁。比起单个云厂商,第三方多云平台更中立。这也正是 Cloudera 在云计算浪潮中的机会。

今年 7 月初,Cloudera 宣布推出了 CDP 私有云产品。CDP 私有云专为混合云构建,以统一的内置安全治理能力将本地部署环境无缝连接至公有云,客户可以在公有云与公有云,公有云和私有云之间无缝切换,消除了被某个云厂商绑定的问题。

7 月 15 日, Cloudera 宣布与阿里云达成合作,CDP 将在大中华区入驻阿里云,成为阿里云中的企业数据云,在该平台上提供广泛的数据分析和人工智能功能,以及安全的用户访问和数据治理功能。这次合作将帮助大中华区的企业更快地迁移到云上,以及在上云过程中,有效运用数据赋能业务。

该联合解决方案的一大亮点在于,用户在阿里云上使用 CDP,获取 CDP 的功能和性能,同时实现最大的选择和灵活性。此外,该联合解决方案具有灵活部署,可扩展的数据管理,按需处理能力,降本增效等优点。

那么,企业具体如何在阿里云上使用 CDP 呢?

在《基于阿里云部署的 CDP 产品详情》白皮书中,详细介绍了在阿里云上运行 Cloudera 并利用不同的阿里云服务(例如 ECS)的最佳实践。

不只是提供 Hadoop 技术本身的支持,CDP 能为企业提供全数据生命周期的支持,还提供在整个数据生命周期所有使用到的工具和平台,包括数据采集、IoT、数据分析、BI、数据仓库、机器学习、数据科学等。

在上云的过程中,企业对数据安全的要求比以往更高了。

在保障企业云上的数据安全治理方面,Cloudera 在整个数据生命周期里提供了全套的数据安全跟数据治理的功能。采用了企业级的安全性和管控机制,CDP 提出了共享的数据体验架构,实现存储层和计算层的解耦,更好的管理源数据,同时实现数据存储分离。对数据的安全、治理、血缘和审计方面,提供了单独的 SDX 工具。

坚持 100% 开源战略

在商业模式上,继承 Cloudera 和 Hortonworks 的开源开放基因,合并后的 Cloudera 的产品路线仍会延续 100% 开源的战略,将开源进行到底。

Cloudera 在后续产品中保证源代码 100% 开源,继续在社区为开源项目做贡献。Cloudera 还会将很多新的开源项目不断纳入 CDP,希望通过开源开放的模式推动基于 Apache 的大数据社区持续发展。

与此同时,Cloudera 将采用新的开源许可模式。据悉,Cloudera 的新的授权许可方式整合了 Hortonworks 和 Cloudera 各自在之前使用的授权许可方式,并在合并 Hortonworks 之后做出了一些新的改变 :

  • 新的开源许可模式

在授权许可方面,Cloudera 所有产品均将采用 OSI 批准的许可证,即 Apache 软件许可证 (ASL) 或 Affero 通用公共许可证 (AGPL)。

在此基础上,Cloudera 贡献代码的由 Apache 软件基金会托管的所有开源项目将继续由 ASF 监管。同时,Cloudera 的代码贡献模式没有改变,第三方项目将继续采用 Upstream First 方式。第三方项目代码库的公开源仅保持在 Upstream。

  • 借鉴红帽的开源模式

Cloudera 将采用市场及全球企业用户已接受的类似红帽的开源模式。自 2019 年 11 月起,产品的二进制文件都将置于付费专区, 并对厂商提供了一定程度的保护,因此需订阅后才能访问。二进制文件包含 Cloudera 特定的知识产权,将许多分散的开源项目整合到企业级的功能系统中。

  • 组建新开源项目

CDP 会对开源组件进行精选与整合,结合新创建的开源项目,提供跨云服务、全数据生命周期支持、数据安全和治理等, 满足企业级用户的需求,为企业提供完整的云数据服务。

毫无疑问,开源开放必将成为未来的主流,而这也将是 CDP 未来发展的原动力。

写在最后

CDP 的一小步,Cloudera 的一大步。

从以 Hadoop 为基础架构的商业版 CDH,到首款企业数据云平台产品 CDP,抓住了大数据时代的风口的 Cloudera 积极转型,能否在在云计算时代占据一席之地?相信时间会给出答案。

时代在变幻,技术在更迭,只有持续革新数据管理的新范式,才能让数据成为企业的超级引擎。

对于企业来说,也要与时俱进。在大数据和云计算的浪潮中,企业如何借助 CDP 这样的数据管理解决方案,发掘出数据的商业价值,推动业务发展?

9 月 8 日,来自 Cloudera 的技术专家将进行一场线上的直播公开课,分享《Cloudera 推出 CDP 后,原来盛行的 CDH/HDP 将何去何从?》。这次直播还为大家准备了丰厚的福利,课后,将筛选有意向使用的参会者,发放阿里云上 CDP 试用版。欢迎感兴趣的开发者参与!

点击阅读原文链接,预约观看直播!

以上是关于大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop 气数已尽 !

大数据需要拥抱云原生吗?云原生为什么这么火?

腾讯云拥抱AI:智能+让未来城市大数据更有价值

拥抱智能,AI 视频编码技术的新探索

拥抱智能,AI 视频编码技术的新探索

拥抱智能,AI视频编码技术的新探索