从大数据平台CDP的架构看大数据的发展趋势

Posted 明哥的IT随笔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从大数据平台CDP的架构看大数据的发展趋势相关的知识,希望对你有一定的参考价值。

大家好,我是明哥!

1 CDP 介绍

熟悉大数据业界的小伙伴们都知道,Cloudera 在跟 HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止对原有的大数据平台 CDH 和 HDP 的维护。

下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点

  • HDP2.x和CDH5.x对应的是hadoop2.x

  • HDP3.x和CDH6.x对应的是hadoop3.x

  • 目前官方已经停止了对HDP2.x和CDH5.X的技术支持

  • 官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止

  • 具体来讲,HDP3.x的最新版HDP3.1,会在2021/12月停止技术支持

  • 具体来讲,CDH6.x的最新版CDH6.3,会在2022/3月停止技术支持

CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:

  • 淘汰了竞争的技术

  • 融合了重叠的技术

  • 保留了互补的技术

  • 升级了共享的技术

  • 并增加了某些新功能

2 CDP 的不同部署形态

CDP 对应不同场景,推出了两大部署形态:

  • 对应公有云场景的 CDP public cloud, 以 PaaS 形式对外提供服务,目前已经对接了三大公有云厂商 aws, gcp, azure;

  • 对应私有云场景和数据中心场景的 CDP private cloud, 包括 CDP private cloud base 和 CDP private cloud plus,其中前者对应的就是原来场景的 CDH 和 HDP,后者底层封装使用了 docker 和 k8s,经常被用来做计算集群;

  • 以上两个版本底层对应的是同样的 cloudera runtime, 其实质就是大数据各个具体组件,如 hdfs/yarn/hive/spark 等等。

  • 随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。在次背景下,Cloudera 也整合并重磅推出了 CDP Hybrid Cloud:

3 CDP Hybrid Cloud 的架构

CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,其最终架构如下图所示:

这里有几个要点解释下:

  • 用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;

  • 用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);

  • CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;

  • ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;

  • ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)

  • 当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:

4 从 CDP Hybrid Cloud 的架构看大数据的发展趋势

CDP Hybrid Cloud 的架构,具有以下优势和特点:

  • 存储计算分离

  • 计算集群快速搭建和销毁

  • 计算集群弹性扩展和收缩

  • 使用Ozone替代HDFS

  • 集中式用户权限管理

  • 集中式元数据管理

  • 通过CML整合支持机器学习和人工智能

这刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:

  • 大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化

  • 大数据更加青睐存储计算分离的架构

  • 大数据更加青睐对象存储

  • 大数据和机器学习/人工智能日益融合

  • 大数据日益重视数据安全

  • 大数据日益重视数据治理

5 其它相关博文

  • 一文看懂Cloudera对CDH/HDP/CDP的产品支持策略

  • 从技术视角看大数据行业的发展趋势

  • 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)

  • 浅谈传统企业的大数据平台如何上云

  • 2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)

  • 从历年 Gartner hype cycle 看大数据行业的发展历史和趋势

一文看懂Cloudera对CDH/HDP/CDP的产品支持策略

从技术视角看大数据行业的发展趋势

# 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)

浅谈传统企业的大数据平台如何上云

从历年 Gartner hype cycle 看大数据行业的发展历史和趋势

2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)

!关注不迷路~ 各种福利、资源定期分享!欢迎小伙伴们关注公众号!

!欢迎小伙伴们添加明哥微信,备注“加群交流”,拉你加入ABC技术交流群!

IT明哥

以上是关于从大数据平台CDP的架构看大数据的发展趋势的主要内容,如果未能解决你的问题,请参考以下文章

从历年 Gartner hype cycle 看大数据行业的发展历史和趋势

从Apache Spark 2.3看大数据流式计算的发展趋势

盘古开源:从大数据时代信息安全,洞察数字经济发展趋势

WOT干货大放送:大数据架构发展趋势及探索实践分享

大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI

大数据发展趋势预测