阿里云万亿级数据集成架构实践
Posted 大数据生态
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云万亿级数据集成架构实践相关的知识,希望对你有一定的参考价值。
Distribute模式
On Hadoop模式
第三个模式是On Hadoop模式,也是商业化版本的一个能力。当用户已经拥有一个Hadoop执行集群,我们可以将DataX数据传输作业部署在已有的Hadoop集群里面,Hadoop中常见的编程模型是MapReduce,我们可以将DataX拆分的task寄宿在mapper节点和reducer节点中,通过Yarn进行统一调度和管理,通过这种方式我们可以复用已有的Hadoop计算和执行能力。这种模式和开源的Sqoop框架是有一点类似的。
2. 实时同步CheckPoint机制下面介绍阿里云数据集成DataX关于实时同步的checkpoint机制。checkpoint机制可以保证实时数据传输的稳定和断点续传的能力。
如果你对Flink特别了解的话,这张图会非常熟悉。Flink是阿里团队开源出去的另外一个非常重要的实时计算引擎,DataX框架也借助了Flink的checkpoint机制,比如Flink会定期发送一些barrier事件和消息。我们的Reader Task其实是source,收到barrier以后,会产生snapShotState,并且barrier会传递到Transformer Task,Transformer Task可以用来做数据的转换,Transformer Task收到barrier以后,barrier进一步传递到Writer Task,这个时候的Writer Task其实就是sink,收到barrier之后,会再做一次snapShotState,Writer Task会将我们的数据flush到目标储存。我们会跟踪barrier进度情况,并且根据barrier进度情况,把数据流消费的点位cache缓存下来,并且可以进行持久化存储。当任务出现异常或者进程退出的时候,我们可以继续从上一个cache点继续消费数据,可以保证数据不会被丢弃,不过数据可能会有部分的重复,一般后序的计算引擎可以处理这种情况(幂等写出,最终一致)。
1. 阿里云数据集成离线同步-核心亮点
概况一下阿里云数据集成离线同步的核心亮点。主要分为以下四个部分:
第一部分是支持多种类的数据源,DataX支持50+常见数据源,涵盖各种关系型数据库、文件系统、大数据系统、消息系统;
第二部分是解决方案系统,我们为一些数据传输经典问题准备了对应的解决方案,比如支持全量和增量的数据同步,支持整库、批量数据同步、支持分库分表,我们将这些琐碎的功能整合成了产品化的解决方案,直接通过界面操作即可完整复杂的数据传输过程;
第三部分是精细化权限管控能力,可以对数据源权限进行安全控制,并且隔离开发和生产环境;
第四部分DataX支持复杂调度,数据集成与DataWorks深度融合,利用DataWorks强大的调度能力调度我们的数据传输任务。
再概况下阿里云数据集成实时同步的核心亮点。
DataX是借助插件化机制,对新的数据源支持扩展能力强。
DataX支持丰富多样的数据源,支持星型链路组合,任何一种输入源都可以和任何一种输出源搭配组成同步链路。
DataX支持断点续传,可以实时读取mysql、Oracle、SQLSever、OceanBase、Kafka、LogHub、DataHub、PolarDB等的数据,可以将数据实时写入到MaxCompute、Hologres、Datahub、Kafka、ElasticSearch等储存系统。
DataX天然具有云原生基因,和阿里云产品融合度非常高。
DataX可以轻松监控运维告警,提供运维大盘、监控报警、FailOver等运维能力,可以监控业务延迟、Failover、脏数据、心跳检查、失败信息,并且支持邮件、电话、钉钉告警通知。
DataX支持一站式解决方案,支持常见数据源整库全增量到MaxCompute、Hologres、ElasticSearch、DataHub等,同时能够满足分库分表,单表、整库多表、DDL消息等复杂场景。
1. 离线数仓-整库迁移方案
下面将详细介绍一下阿里云数据集成解决方案系统,首先是离线数仓的整库迁移解决方案,我们将数据集成中的一些典型场景,抽象为数据产品解决方案,可以帮助提升用户效率,降低用户使用成本。上图展示出源头数据库中所有的表列表,直接选中需要的表,选择对应的同步方式,比如每日增量或者每日全量,选择分批上传或者整批上传的同步并发配置,就可以上传到MaxCompute中,这种可视化操作可以满足大多离线数据迁移场景。
2. 实时数仓-全增量解决方案实时数仓的全增量解决方案,可以非常方便的将现有数据库通过简单的配置后,完成存量的全量迁移,以及后续增量的实时同步。支持在目标库中建表、自动建立离线同步任务、自动建立实时任务、自动启动离线任务、自动启动实时任务、自动建立和启动增量和全量的融合任务、全流程的监控和展示,支持子步骤异常重试。通过这种方案,可以让用户不用关注每个全量任务和实时任务的琐碎配置细节。通过这一套解决方案,可以完成整个数据的全量、增量实时数据的同步。
前面介绍了阿里云数据集成开源和商业架构和能力,接下来介绍一下阿里云DataWorks和数据集成的关系。DataWorks是阿里云提供的一站式开发、数据治理的平台,融合了阿里云、阿里集团12年之久的数据中台、数据治理的实践经验。数据集成是阿里云DataWorks核心的一部分,DataWorks向下支持各种不同的计算和存储引擎,比如阿里大数据计算服务MaxCompute、开源大数据计算平台E-MapReduce、实时计算Realtime Compute、图计算引擎GraphCompute、交互式分析引擎MC-Hologres等,以及支持OSS、HDFS、DB等各种存储引擎。这些不同的计算存储引擎可以被阿里云DataWorks统一管理使用,后面可以基于这些引擎去做整个数据仓库。
DataWorks内部划分为7个模块,最下面是数据集成,可以完成各种模式的数据同步。数据集成之上,是元数据中心,提供统一的元数据服务。任务调度中心可以执行任务调度服务,数据开发方面,不同的存储引擎,比如实时计算和离线计算,其有着不同的开发模式,DataWorks支持离线开发和实时开发。同时DataWorks拥有一套综合数据治理的解决方案,会有一个数据服务模块,统一向上提供数据服务,对接各种数据应用。最后将DataWorks各种能力统一通过OpenAPI对外提供服务。
数据集成模块是可以单独对用户提供服务,单独使用的,并不需要了解和掌握所有DataWorks模块就可以将数据同步作业配置和运行起来。
下面介绍一个智能实时数仓解决方案实例,可以应用在电商、游戏、社交等大数据实时场景中。数据源有结构化数据和非结构化数据,非结构化数据可以通过DataHub数据总线做实时数据采集,之后借助数据集成来实时写到Hologres中做交互式分析,也可以将数据实时写入到MaxCompute中,进行归档和离线数据计算,另外Flink也可以消费订阅数据,做实时数据计算。Flink计算结果同时又可以写入Hologres中,也可以将实时计算结果做实时大屏和实时预警。结构化数据也可以通过实时数据抽取或者批量数据采集方式,统一采集到DataWorks,实时数据可以写入到Hologres或者定期归档到MaxCompute,离线数据可以通过批量数据加工到MaxCompute中来,另外MaxCompute和Hologres可以结合使用,进行实时联邦查询。
上面这套解决方案可以将阿里云实时数仓全套链路与离线数据无缝衔接,满足一套存储、两种计算(实时计算和离线计算)的高性价比组合。
今天的分享就到这里,谢谢大家。
在文末分享、点赞、在看,给个3连击呗~
分享嘉宾:
电子书下载
《大数据典藏版合集》电子书目录如上,感兴趣的小伙伴,欢迎识别二维码,添加小助手微信,回复『大数据典藏版合集』,即可下载。
关于我们:
阿里云MVP专家:重塑万亿级企业三高微服务架构设计实战案例
孙玄,前58集团技术委员会主席,前转转二手交易平台首席架构师。今天想跟你聊聊企业里那些年薪百万的架构师,他们的架构设计思维是如何升级的。
话不多说,咱们直接来聊点儿干的!
01、百万年薪的核心竞争力
作为前58集团技术委员会主席、前58转转首席架构师,我最近一直在反复问自己一个架构师成长问题:百万年薪架构师的核心竞争力到底是什么?我认为是对架构设计的升维认知,以及所具备的顶级思维模型。
作为百万年薪架构师的顶级思维模型之一:根据(业务)场景Balance的架构设计思维模型。BAT超一线大厂架构设计固然优秀,但照搬拷贝就变的很可笑。身为一名顶级架构师,你需要根据所处公司的业务特点、请求并发、数据规模等场景给出灵活优雅的架构设计解决方案,满足公司未来6个月到2年的业务发展需求。
02、顶级思维模型
具备架构设计顶级思维模型,也就具备了架构设计的哲学本质,从而形成了以不变应万变的架构设计能力,做到面对任何复杂的业务场景都能够给出优雅的架构解决方案。
具备架构设计顶级思维模型,也就具备了架构设计的“道”,也就彻底明白百花齐放的架构模式(单体架构、SOA、微服务架构、服务网格、云原生架构、Serverless架构、中台化架构等)只为满足各类企业不同场景的业务需求,从而能够真正做到架构设计的终极目标——降本增效。在新技术日新月异的今天才不会迷失方向,才不会担心所谓35岁年龄问题。
那么如何拥有这些顶级架构思维模型?我想只有切实在企业级真实架构设计实践中才能出真知!
回想我成为首席架构师的成长之路,也的确践行了这套方法论。2012年负责IM架构设计、2013年负责招聘业务架构设计、2014年负责房产业务架构设计、2015年二手电商架构设计……通过不同业务场景、不同请求并发、不同数据规模、不同安全要求等异构场景架构设计的千锤百炼,才让我真正拥有了这些顶级架构设计思维模型。
但回归企业现状,绝大数同学们并没有企业级真实业务的历练机会,帮助他们拥有这些架构设计思维模型,学习和模仿是快速提升之路。由我联手58快狗打车CTO沈剑老师,结合10多年一线大厂实践经验,打造的《百万年薪架构师必备能力—万亿级企业高可用高并发高可靠微服务架构设计与实践》精品在线专栏马上开班,3天时间,带你快速掌握三高微服务架构设计核心技术,从而具备顶级架构设计思维模型,如果学完后还不能真正掌握,来找我算账就好……
精品专栏课原价499,现在花9.8就能拿下,只要半杯奶茶钱,就能换来16节名师精心打磨的百万年薪架构师技术和思维模型实战课,相当划算!1月11-13日,绝对是市面上唯一的一门百万年薪架构设计与实践精品课,也是P8级百万年薪架构师必须掌握的核心能力!
精品课程内容由3大篇章16模块构成,包括:
(1)顶级思维模型篇:三高微服务架构设计为例,打造百万年薪架构师顶级思维模型;
(2)重塑技术巅峰篇:万亿级企业三高微服务架构设计与实践;
(3)综合案例实践篇:万亿级企业三高微服务架构真实案例篇。
通过通俗易懂的万亿级企业案例式讲解,带你真正掌握百万年薪架构师的架构设计能力和顶级思维模型,从而在成为百万年薪架构师的路上越走越快!
总之通过从三高微服务架构体系设计核心技术点,到企业海量微服务架构设计线,再到万亿级企业真实业务应用面的深度剖析,使得同学们全方面立体掌握三高微服务架构设计与实践,同时拥有百万年薪架构师的顶级思维模型。
03、课程都有哪些特色
(1)首次完整揭秘百万年薪架构师的顶级架构设计思维模型;
(2)基于万亿级企业真实三高微服务架构设计,完整剖析百万年薪架构师思维模型;
(3)彻底揭秘万亿级企业三高微服务架构设计哲学本质,沉淀微服务架构设计方法论;
(4)彻底揭秘万亿级企业微服务架构设计的高可用、高并发设计方法论与实践;
(5)彻底揭秘万亿级企业微服务架构设计的广义负载均衡(负载均衡、熔断、服务故障发现、故障恢复等)设计方法论与实践;
(6)真实还原微服务架构设计在阿里电商、腾讯社交、新浪微博等万亿级业务场景的设计与实践。
04、3大篇章16模块核心架构技术
硬核拆解百万年薪架构师级三高微服务架构设计与实践
05、超强名师带你学!
06、超强收获
(1)掌握百万年薪架构师的顶级架构设计思维模型,具备以不变应万变的架构设计能力;
(2)掌握万亿级企业三高微服务架构设计哲学本质,沉淀微服务架构设计方法论,从而能够给出优雅架构设计解决方案;
(3)掌握万亿级企业微服务架构设计的高可用设计方法论与实践,能够确保在生产环境中稳定运行;
(4)掌握万亿级企业微服务架构设计的高并发设计方法论与实践,再也不惧怕海量高并发;
(5)掌握万亿级企业微服务架构设计的广义负载均衡(负载均衡、熔断、服务故障发现、故障恢复等)设计方法论与实践,能够优雅应对突发情形;
(6)掌握万亿级企业微服务架构设计在阿里电商、腾讯社交、新浪微博等不同企业场景的真实设计与实践,能够做到举一反三。
07、哪些人群适合学习
如果你是一名:
系统架构师
业务架构师
云原生架构师
大数据架构师
硬件/嵌入式系统架构师
运维架构师
DBA架构师
测试架构师
解决方案架构师
技术负责人/技术经理/技术总监/技术VP/CTO
项目经理/项目总监
进一步提升架构设计认知和思维模型的其他职位
......
那么百万年薪架构师级三高微服务架构设计与实践这门实践精品课,正是为你量身定做的!
真实好评,名师玄姐口碑爆棚!
左右滑动查看更多
百万年薪架构师每天都在使用微服务架构
你需要真正掌握它!
16模块架构设计硬核干货
3天速成精品课
原价499,限时扫码9.8
快速搞定三高微服务架构和顶级思维模型!
以上是关于阿里云万亿级数据集成架构实践的主要内容,如果未能解决你的问题,请参考以下文章