从大数据平台CDP的架构看大数据的发展趋势
Posted 明哥的IT随笔
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从大数据平台CDP的架构看大数据的发展趋势相关的知识,希望对你有一定的参考价值。
大家好,我是明哥!
1 CDP 介绍
熟悉大数据业界的小伙伴们都知道,Cloudera 在跟 HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止对原有的大数据平台 CDH 和 HDP 的维护。
下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点
HDP2.x和CDH5.x对应的是hadoop2.x
HDP3.x和CDH6.x对应的是hadoop3.x
目前官方已经停止了对HDP2.x和CDH5.X的技术支持
官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止
具体来讲,HDP3.x的最新版HDP3.1,会在2021/12月停止技术支持
具体来讲,CDH6.x的最新版CDH6.3,会在2022/3月停止技术支持
CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:
淘汰了竞争的技术
融合了重叠的技术
保留了互补的技术
升级了共享的技术
并增加了某些新功能
2 CDP 的不同部署形态
CDP 对应不同场景,推出了两大部署形态:
对应公有云场景的 CDP public cloud, 以 PaaS 形式对外提供服务,目前已经对接了三大公有云厂商 aws, gcp, azure;
对应私有云场景和数据中心场景的 CDP private cloud, 包括 CDP private cloud base 和 CDP private cloud plus,其中前者对应的就是原来场景的 CDH 和 HDP,后者底层封装使用了 docker 和 k8s,经常被用来做计算集群;
以上两个版本底层对应的是同样的 cloudera runtime, 其实质就是大数据各个具体组件,如 hdfs/yarn/hive/spark 等等。
随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。在次背景下,Cloudera 也整合并重磅推出了 CDP Hybrid Cloud:
3 CDP Hybrid Cloud 的架构
CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,其最终架构如下图所示:
这里有几个要点解释下:
用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;
用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);
CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;
ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;
ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)
当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:
4 从 CDP Hybrid Cloud 的架构看大数据的发展趋势
CDP Hybrid Cloud 的架构,具有以下优势和特点:
存储计算分离
计算集群快速搭建和销毁
计算集群弹性扩展和收缩
使用Ozone替代HDFS
集中式用户权限管理
集中式元数据管理
通过CML整合支持机器学习和人工智能
这刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:
大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化
大数据更加青睐存储计算分离的架构
大数据更加青睐对象存储
大数据和机器学习/人工智能日益融合
大数据日益重视数据安全
大数据日益重视数据治理
5 其它相关博文
一文看懂Cloudera对CDH/HDP/CDP的产品支持策略
从技术视角看大数据行业的发展趋势
公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)
浅谈传统企业的大数据平台如何上云
2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)
从历年 Gartner hype cycle 看大数据行业的发展历史和趋势
一文看懂Cloudera对CDH/HDP/CDP的产品支持策略
# 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)
从历年 Gartner hype cycle 看大数据行业的发展历史和趋势
2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)
!关注不迷路~ 各种福利、资源定期分享!欢迎小伙伴们关注公众号!
!欢迎小伙伴们添加明哥微信,备注“加群交流”,拉你加入ABC技术交流群!
以上是关于从大数据平台CDP的架构看大数据的发展趋势的主要内容,如果未能解决你的问题,请参考以下文章
从历年 Gartner hype cycle 看大数据行业的发展历史和趋势
从Apache Spark 2.3看大数据流式计算的发展趋势