数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级
Posted 数栈DTinsight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级相关的知识,希望对你有一定的参考价值。
4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据引擎 EasyMR。
今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”
袋鼠云作为国内领先的数字化基础软件与应用服务商,自始自终坚持自主创新,专注大数据基础软件研发,利用先进技术赋能更多行业客户数字化转型,助力发掘和释放数据资源的潜在价值。
全新发布数栈V6.0产品矩阵
袋鼠云产研负责人思枢首先介绍了数栈V6.0全新产品矩阵的落地进展以及产品升级方向。通过对多年数字化实践沉淀的梳理、重构和升级,数栈V6.0形成了大数据基础平台层+大数据开发与治理层+数据分析与洞察平台层的全新数字化产品矩阵,以迭代的新组合、新能力、新技术,为数实融合应用注入更强劲的“数栈”驱动力。
整个矩阵中,大数据基础平台是底座,包含全新升级的两款产品:大数据计算引擎EasyMR 和湖仓一体EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一键式组件的安装、运维、部署。EasyLake 则主要提供面向数据湖的统一元数据管理,及数据服务和分析。大数据基础平台旨在为各行业的数字化转型提供随时可用的强劲动力和坚实基础。
往上看,中间层大数据开发与治理,它融合了 DataOps 数据理念,包含离线开发BatchWorks、实时开发StreamWorks、数据服务DataAPI、数据资产DataAssets和指标管理DataIndex 五大模块。以自主可控、安全创新为技术内核,将全域数据资产进行汇聚、加⼯、治理、服务、分析,为客户提供安全、稳定、易⽤的⼤数据平台,加速释放数据价值,赋能数智应用。
最上层的数据智能分析与洞察层,提供客户数据洞察UserInsight和数据可视化分析EasyBI两大应用功能。助力企业构建以业务价值为导向的数据分析与应用体系,驱动业务增长。
以下为数栈本次重点升级的大数据计算引擎产品 EasyMR,根据思枢演讲整理而成。
EasyMR:大数据计算引擎
EasyMR 的丰富功能
EasyMR 内包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等计算组件,完全兼容 Apache 开源生态,一键开启 LDAP+Kerberos+Ranger 认证权限体系,支持库/表/行/列级权限控制,提供企业级安全管控。
EasyMR 的集群管理包括以下五大功能:
· 主机管理:可以对接x86服务器、ARM 服务器、Kubernetes 集群等主机类型,进行包括批量接入、主机下架、主机监控等在内的主机操作
· 安装部署:包含自动部署、手动部署、补丁包升/降级、组件回滚等丰富功能
· 集群运维:包含组件启停、健康检查、服务日志查看等功能,以及根据客户业务侧的使用情况实现动态扩缩容
· 监控告警:随着业务的运行,发生主机运行的异常情况,能够实现自动告警
· 基础管理:包括用户管理、操作权限管理、审计日志等功能
EasyMR 的丰富功能能够帮助企业,更全面、更智能、更安全地运用数据,加速企业数字化转型。
EasyMR 的核心特性
● 信创国产化
EasyMR 完成了与主流信创生态厂商的适配互认工作,支持统信UOS、龙蜥、麒麟等国产操作系统,鲲鹏920、飞腾等国产芯片,长城擎天CF520、华为公有云等国产服务器的适配,以及大部分国产数据库、国产中间件的适配。
EasyMR 的更多信创兼容情况请看下图:
● 开源/自主可控
EasyMR 作为袋鼠云自研的大数据基础平台,其大数据组件100%基于开源 Hadoop,完全兼容 Apache 开源生态,与开源社区同步迭代,时刻保持技术的领先性。并且 EasyMR 对 Spark、Flink、Trino、Iceberg 等部分组件特性进行优化增强,回馈社区,以开放心态共建 Hadoop 生态。
● 运维托管服务
EasyMR 提供大数据集群监控告警、安全保障、数据质量保障以及平台运维服务;提供定期巡检、深度体检、成本优化以及高阶调优服务;以及提供包括大数据集群迁移、集群容灾建设、架构设计规划等在内的实施服务,全链路一站式运维托管服务。
● 安全
通过 LDAP+Kerberos+Ranger 这套认证权限体系,对库/表/行/列级进行权限控制,实现企业级安全管控。
EasyMR 国产化适配:中间件,元数据库
Hive 的子组件 Hive Metastore,在开源的方案中通过 redis 进行缓存加速,而现在可以通过宝兰德BCS 这样的国产中间件对 redis 进行国产化替代。
Hive Metastore 本身的元数据信息在开源方案中存储在 MySQL 和 OracleSQL 中,现在也可以通过适配国产数据库,如 TDSQL、OceanBase,对开源数据库进行替代。基于此,EasyMR 实现真正的国产化,完全自主可控。
EasyMR 深知只有实现关键技术的自主化、国产化,才能真正实现技术创新,攻克“卡脖子”难题。
EasyMR 对大数据组件的功能增强
袋鼠云作为国内领先的数字化基础软件与应用服务商,十分重视强化产品的基础能力和技术能力,在开源技术的基础上,EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据核心组件进行了功能及性能增强。具体优化见下图:
仅在2022年袋鼠云技术同学就完成了上百次的 commit,为 Hadoop 生态的技术发展贡献了属于袋鼠云的力量。
赠人玫瑰手有余香,回馈社区的同时袋鼠云实现了对整个 Hadoop 体系核心代码的完全自主掌握,对于 EasyMR 大数据平台迁移、大数据组件维保等做到了100%自主可控。
EasyMR 自主研发能力:技术开源
从2016年数栈V1.0发布开始,到如今的数栈V6.0,数栈已经历经了七年六个大版本的迭代实践。随着对技术能力的不懈探索,数栈内部也沉淀了一些优秀的大数据组件,如流批一体的数据同步集成组件ChunJun,DAG分布式任务调度组件Taier、大数据平台运维组件ChengYing等,这些组件数栈已经全部贡献给了Github,下面是袋鼠云开源的地址,欢迎使用。
Github地址:https://github.com/DTStack
技术无界,创新不止。袋鼠云数栈技术团队连续两年荣获“年度优秀开源技术团队”的称号,ChunJun 也顺利晋级“2022 年中国开源创新大赛”决赛,并荣获“优秀开源项目/社区”奖项。这些鼓励都源于数栈技术团队出众的产品技术能力和自主研发能力。
CDP/CDH 平滑迁移到 EasyMR 解决方案
基于国家对于国产信创的政策要求,以及 CDH 停止服务(EoS),用户没办法再获取售后支持的大背景,各行各业的大数据平台底座需要进行国产化替代的需求越来越强烈。基于此,数栈支持 CDP/CDH 平滑迁移到 EasyMR 的解决方案,大大降低企业迁移成本低。
生产业务不能停,该方案支持双轨运行,即客户的原 CDH 集群和信创的 EasyMR 集群可以同时运行。整个迁移过程操作简单,配置灵活,通过4步即可完成所有的迁移工作。
第一步,进行计算平台和开发套件的替换。
第二步,进行数据迁移。包括历史数据和元数据的迁移,在迁移过程中,EasyMR 支持数据检验,保证在数据迁移过程中的数据一致。
第三步,执行任务迁移。包括采集任务、数据加工任务、任务依赖关系以及分析引擎。
第四步,业务切割。包含集群的切换,及老服务器下线,新服务器上线等动作切换,最终达到 CDP/CDH 平滑迁移到 EasyMR 的目的,并且实现对客户侧的业务无感知。
EasyMR 积累了大量的迁移成功案例,经验丰富,可以保障整个迁移过程安全可靠。
Hadoop 平滑升级解决方案
大数据组件每年的版本更新速度比较快,不少企业还停留在 Hadoop2.0 的阶段。许多客户想升级到 Hadoop3.0 版本,体验新的特性和性能优化,但是客户的业务在版本更新中又不能停止,这时应该怎么做?
EasyMR 可实现节点的动态替换,将一个节点先升级到 Hadoop3.0 的节点,在这个节点上印证没有问题之后,再进行剩下节点的逐步替换,这样就真正实现了 Hadoop 的无感知平滑升级。
EasyMR 的实践应用
在介绍完 EasyMR 的具体功能和特性之后,下文将为大家介绍2个 EasyMR 的经典实践应用落地,更深地感受 EasyMR 是如何帮助企业更高效、平滑、安全地实现实现国外进口产品的国产化替代。
某全国性股份制商业银行:CDH 迁移至 EasyMR
某全国性股份制商业银行,为解决分行数据应用建设效率差等问题,数栈帮助该客户实现了 CDH 平滑迁移至 EasyMR,并且为该客户建立了“总行统一调度+分行数据协同共享”的数据应用云平台。
EasyMR 使用 Trino 替换 Impala,解决了客户 Impala 内存过度占用导致节点宕机的问题,提升查询性能,实现了资源动态隔离;并且采用「云平台」的模式,总行+各个分行是平台上的单独租户,底层存储、计算资源共享提升数据下发效率,数据权限隔离保证安全,不用再担心出现分行数据误删除、丢失等安全问题。EasyMR 兼容信创生态体系,平滑迁移至国产化环境,符合金融行业的信创国产化要求。
通过 EasyMR 大数据基础平台的建设,该全国性股份制商业银行实现了成本管理和业务管控的双效提升。
某支付行业云服务品牌:EasyMR + 数栈Saas化
金融行业正逐渐从数字化时代迈向智能化时代,该客户的需求是将 EasyMR 和数栈进行 Saas 化,依托数据中台产品,赋能客户,加快走向智能化时代的步伐。
面对客户需求,数栈 + EasyMR 与云平台的网络架构、服务器、云平台的统一权限管控等各项内容实现全面兼容适配,保证在客户开通权限资源后,依然能够保障 EasyMR 的稳定运行。并且数栈 + EasyMR 实现了「订购—自动化部署—一键扩缩容」等各类操作。
作为大数据基础软件国产化的重要推动者之一,数栈还拥有大量成熟大数据解决方案,可以更好地支持各行业智能化、数字化应用建设。
首发数栈V6.0产品白皮书
此外,会上还发布了《数栈产品白皮书》:从数字技术、产品能力、应用实践、服务支持四个方面进行深度研判,针对性克服数字化转型短板,从数据治理、湖仓一体、数据集成、DataOps 等八个方面进行解决方案解读,重点提升客户数据管控能力。此外,本白皮书总结了有效的大数据基础软件建设经验,为各行业企业的数字化转型提供参考和指导。
欢迎大家扫码进行免费获取。
数栈始终坚持自主可控,积极致力于帮助客户打造国产创新的企业级大数据基础软件,帮助客户夯实数据基座,建立从数据获取生产到数据消费利用的全生命周期管理体系,使数据“可见、可用、可管”,洞察数字化机遇,明确转型方向,创造数据新价值。
今后,数栈产品也将更加贴合实际场景,用数智化方式解题,践行“用数据产生价值”的使命。
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack
数栈产品经理分享:干货解读数据中台产品「模块化」设计思路
一、前言
在做企业服务类(ToB)的产品时,我们经常会遇到如下场景:
每个客户拿着他们的需求清单,来咨询我们的产品是否可满足他们的诉求。如图所示:
每个客户的需求有重叠的内容,也有不一样的内容,而这些需求,在某一领域均具有较强的通用性。
如何满足这些客户需求的同时又能使各个需求沉淀为标准功能,而不仅仅是为了交付项目?这成为ToB类产品经理思考最多的问题。
为支撑客户诉求,基本的做法是抽象各个需求,落地为标准功能,将各个功能拼装成一个产品。但是一段时间后大家就会发现功能越堆越多、产品越做越庞大,但是用户体验却越来越差,产品开发维护越来越困难。
如何既能满足客户诉求,又能解决产品存在的这些问题?模块化设计是一个方向。后面我们展开介绍下,数栈在模块化设计方面的一些经验供参考。
二、模块化设计介绍
(一)目的
- 从商务销售的角度说,产品模块可自由组合报价,贴合不同客户的需求,提高产品销售的成单率。
- 从产品研发的角度说,减少重复造轮子的现象,提高研发效率和产品扩展性。
(二)落地经验
模块化设计在数栈平台的落地实施,从大到小主要分为下面三种方式:
- 子产品化
- 公共模块
- 组件/插件化开发
1、子产品化
1)需求背景:
每个客户,甚至同一个客户在不同阶段,对数据中台的理解都不尽相同。
- 比如客户A是个中等规模企业,希望能有款产品帮助他建设离线数仓,满足基本的数据开发诉求,那数栈的离线开发模块就可以满足他们的诉求。
- 比如客户B是个大型的集团企业,希望能从数据开发、数据服务、数据治理等多个方面搭建起集团数据中台,那就得输出一整套数栈去满足该客户。
2)设计思路:
- 产品上——根据业务逻辑,各个模块独立解耦,定位升级为子产品,负责解决不同的业务场景诉求。
- 商务上——销售时可单独报价输出,也可组合报价输出。
3)落地成果:
数栈作为一款数据中台产品,其中包含了:离线开发、实时开发、算法开发、数据服务、数据资产、数据质量、智能标签等子产品,每个子产品可解决不同的业务场景诉求,并支持独立、组合部署。
2、公共模块
1)需求背景:
数栈的各个模块独立化成子产品后,虽然可以解决不同的业务场景诉求,但是在数据中台这个框架内,仍然会存在一些相同的基础功能诉求,比如用户体系、数据源管理、任务运维等。如果每个子产品内部独立实现,会存在两个问题:
- 增加了用户的使用成本。比如相同的用户、相同的数据源需要在各个子产品内多次维护,而且还容易造成理解歧义。
- 增加了产品的研发成本。相同的功能需要重复实现,重复造轮子,浪费研发资源和运维成本。
2)设计思路:
- 剥离各个子产品中的通用功能作为公共模块,统一进行维护管理,然后为各个子产品提供服务。
- 公共模块的设计需要充分调研各个子产品的诉求。对于通用诉求,抽象出标准功能;对于拓展诉求,提供配置化功能;对于个性诉求,由子产品自行实现。
落地成果:
3、组件/插件化开发
1)需求背景:
如果说前两部分的模块化设计是对产品经理能力的考验,那这部分内容更多是对开发人员的要求。
下面介绍我们在日常工作中遇到过三个问题场景:
a、产品设计时,需要新增一个输入框,要求是:属于必填项、内容格式限制中英文、长度限制255字符。
需求很简单,但是每次评审时,产品经理都得给研发说明如果为空时怎么提示、内容不符合格式要求时怎么提示、长度超过限制时怎么处理,沟通成本极大,而这仅仅是整个原型设计中1%都不到的内容。
b、产品设计时,需要复用另一个模块中的表单,表单中维护的各个表单项、表单项关联逻辑均相同。
功能完全一致,但是研发调研后发现,原有的表单处理逻辑和业务处理逻辑强耦合,导致表单代码无法复用,需要重新独立开发。
c、在产品迭代过程中发现存在一类需求,更新相对频繁,需求逻辑具有一定共性,而且更新不会涉及已有功能的改动。
这类需求对于开发,和公共模块之于产品类似,可以抽象为一种公共技术能力对外提供服务。比如我司经常会遇到的需求有:新增支持一种数据源、引擎新增一种任务类型等。
2)解决方案:
- 前端沉淀标准组件库。对于一些常用的设计,通过组件复用来减少开发和产品的工作量;目前我们已沉淀30+前端组件,并在持续迭代中。
- 代码的低耦合设计。这部分要求比较虚,而且没有非常明确的边界,依赖开发经验和对业务的理解,需要持续成长。
- 插件化设计。区分应用层代码和底层代码,底层代码进行插件化封装,可为上层不同的应用提供支持,在支持快速迭代的同时又不会影响已有功能,这样应用层开发可以投入更多地精力去支持业务。目前已落地:数据源插件、数据同步插件、Engine插件、血缘解析插件。
三、总结思考
模块化设计是一种解决方案,并不是最终目的,因此,在产品设计时不能为了模块化而模块化。尤其是产品初期,此时产品功能并不丰富,而且为了快速迭代抢占市场,并不适合投入较多的精力去做这个事情。但是一旦产品进入稳定发展期,产品经理和研发同学都应该开始思考模块化设计在日常工作中的应用了。
模块化设计并不是产品换个名称、独立做个页面就是模块化了,业务层面如何划分、模块之间如何配合、插件剥离的边界在哪,代码逻辑怎么解耦等等,这些都是需要思考的地方。
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:https://github.com/DTStack/flinkx
gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx
以上是关于数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级的主要内容,如果未能解决你的问题,请参考以下文章
数栈产品预告丨您的指标管理平台——EasyIndex即将上线
袋鼠云产品功能更新报告05期|应有尽“优”,数栈一大波功能优化升级!