线上会议精彩回顾 - Cloudera Sessions China 2021

Posted 明哥的IT随笔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了线上会议精彩回顾 - Cloudera Sessions China 2021相关的知识,希望对你有一定的参考价值。

大家好,我是明哥!

1 会议介绍 - Cloudera Sessions China 2021

Cloudera 官方于 2021/11/18 进行了一场全天的技术分享会 “Cloudera Sessions China 2021”,并同步进行了线上直播。

在本次全天的 Cloudera Sessions China 2021 活动中,Cloudera 以用户落地案例为主,为新老用户带来最新技术趋势的讨论和 CDP 典型场景和案例分享。其中包括混合云和私有云上数据平台的技术路线,实时数仓的架构建设,并有多位金融、制造业、零售业用户大咖以及合作伙伴介绍其最佳技术实践。

笔者有幸参加了全程线上直播,也从官方获取了大部分会议资料,在此回顾下会议亮点,并提供资料下载链接给大家。

2 会议议程回程

整个会议议程如下:

  • Cloudera 亚太区总裁致开幕辞

  • 主题演讲:Hybrid Cloud – The Power of “AND”

  • 数字化转型中的大数据趋势和技术方向

  • Dell EMC PowerScale 助力 CDP 开启大数据元宇宙

  • 浦发银行最佳实践分享

  • CDP私有云版本的最新进展与演示

  • 实时场景、实时数仓建设和演进

  • 用户分享 - 上海银行数据湖建设实践

  • 基于GPU的Spark应用加速

  • 用户分享 - 申万宏源基于混搭架构的大数据平台最佳实践

  • 用户分享 - 信也科技大数据与AI赋能新金融

  • 用户分享 – 永辉超市基于CDP的数据中台建设

  • CDP 迁移实例详解

  • Cloudera 金牌合作伙伴威士顿落地案例分享

IT大咖说官网提供了会议的直播回放,链接如下:

  • https://www.itdks.com/Home/Act/apply?id=5810&mUid=10267

3 会议精彩亮点回顾:主题演讲重点推介 CDP 混合云

Cloudera 在会议上重点推介了他们的 CDP 混合云。

4 会议精彩亮点回顾:数字化转型中的大数据趋势和技术方向

Cloudera 在会议上回顾了 HADOOP 的历史和现状,分析了当下数据类型和工作负载的变迁,由此引出了数字化转型中的大数据趋势和技术方向的预测。

这些分析和预测,刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:

从技术视角看大数据行业的发展趋势

  • 大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化

  • 大数据更加青睐存储计算分离的架构

  • 大数据更加青睐对象存储

  • 大数据和机器学习/人工智能日益融合

  • 大数据日益重视数据安全

  • 大数据日益重视数据治理

5 会议精彩亮点回顾:CDP 混合云解决的用户痛点

CDP 混合云,解决了用户以下痛点: 

注:PPT 的标题中陈述的是 CDP 私有云,这其实并不冲突,因为在 CDP 私有云的 CDP private cloud base 的基础上,按需灵活扩展增加了若干个计算集群 ECS 或 OCP 后,就是 CDP 混合云了。在下一章节 “CDP 混合云的架构”中,有进一步的阐述。

6 会议精彩亮点回顾:CDP 混合云的架构介绍与展示

CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,具有以下技术特点:

  • 存储计算分离

  • 计算集群快速搭建和销毁

  • 计算集群弹性扩展和收缩

  • 使用Ozone替代HDFS

  • 集中式用户权限管理

  • 集中式元数据管理

  • 通过CML整合支持机器学习和人工智能

CDP 混合云的架构如下,这里有几个要点解释下:

  • 用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;

  • 用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);

  • CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;

  • ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;

  • ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)

  • 当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:

7 会议精彩亮点回顾:实时场景、实时数仓建设和演进

在实时场景或实时数仓场景,Cloudera 采用的是主流的 LAMBDA 架构,主要整合了以下组件:

  • 导入层:NIFI/KAFKA CONNECT + sqoop

  • 计算层:SPARK STREAMING/FLINK/KAFKA STREAM + spark/hive/impala

  • 存储层:KAFKA/KUDU/HBASE/HIVE/S3

8 会议精彩亮点回顾:基于GPU的Spark应用加速

9 会议精彩亮点回顾:CDP 迁移实例详解

  • 关于 CDP 迁移,笔者原来有关相关博文进行详细介绍,大家可以查阅;

  • 在会上留意到的一点是,已经有不少国内客户已经迁移完毕或正在迁移中了;

  • 迁移完毕后,数据一致性校验的方法需要注意;

2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)

一文看懂Cloudera对CDH/HDP/CDP的产品支持策略

为了方便读者获取,笔者已经将上述资料上传到了百度云盘,小伙伴们可以通过如下方式获取:

关注下方公众号"明哥的IT随笔",在后台回复关键词「CDP」获取下载链接;

▲点击卡片进行关注▲

▲回复「CDP」,获取PDF▲ 

以上是关于线上会议精彩回顾 - Cloudera Sessions China 2021的主要内容,如果未能解决你的问题,请参考以下文章

活动回顾:2021年4月Bitcoin SV线上会议——聚焦亚太

活动回顾:2021年3月Bitcoin SV线上会议——聚焦美洲

三重获益,mCRPC骨转移患者迎来治疗新选择—镭-223线上专家研讨会精彩回顾

线上技术分享的一些思考

线上技术分享的一些思考

安天365第二期线上交流圆满落幕