下一代大数据处理引擎,阿里云实时计算独享模式重磅发布

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了下一代大数据处理引擎,阿里云实时计算独享模式重磅发布相关的知识,希望对你有一定的参考价值。

摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级。(观看实时计算发布会直播:https://yq.aliyun.com/live/591) 独享模式优点更加突出1、UDX开放:实时计算的共享模式是多个用户共享一个物理机群,在网络/磁盘层面没有办法做到完全隔离。

11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级。
(观看实时计算发布会直播:https://yq.aliyun.com/live/591

独享模式优点更加突出
1、UDX开放:实时计算的共享模式是多个用户共享一个物理机群,在网络/磁盘层面没有办法做到完全隔离。因此,基于安全考虑,共享模式下无法对您开放UDX/DataStream更灵活、更底层的API。在某些场景下,无法满足您的业务需求。独享模式在网络及物理机层面,有完全的隔离,因此可以开通UDF等更底层的API,满足您的业务需求。

2、丰富的硬件:业务越来越丰富,对底层机器的配置会有更多样化需求,比如CPU:MEM配比,以及GPU、FPGA等硬件的需求。实时计算独享集群可充分复用阿里云在硬件层面做的各种优化,为您解决各种硬件适配问题。

3、用户间的隔离:对于ECS独享集群,您能够独享一批计算资源,且从网络上进入您的VPC。既满足了您专网专用、资源独享的需求,也可以跟您的IDC打通,更贴近您的业务需求。

4、更丰富的功能:Data Lake场景下的ETL:通过SQL+UDF的方式,使ETL任务开发更加便利。异构数据源计算:支持从异构数据源读取数据做分析。例如,远程从OSS读取数据归档日志,并join hbase中高危ip,做网络***分析等等。支持30+数据源的源表和结果表。

2018年双11,实时计算完成三项世界级挑战
双11是购物狂欢,也是对阿里技术的“大考”。天猫“双11”的成交额冲破100亿元只花了2分05秒,而突破千亿大关,仅仅花了1小时47分钟,比2017年快了7个多小时。这种疯狂带来了阿里史上最大的双11流量洪峰,实时计算处理能力已经相当于一秒钟内读完120万本2018年新版的《新华字典》。

技术分享图片

2013年双11购物狂欢节第一分钟成交破亿,一千多万人同时涌入天猫。这些数据在杭州淘宝城内的数据大屏准实时播报。大屏上跳动的每个数字,来自于阿里集团内部几十个系统间的紧密合作,当在以最快速度秒杀到双11热卖商品的同时,这些系统已经完成了无数轮的数据采集、传输、加工、计算以及反馈到页面的工作。这也是阿里云实时计算技术的首次亮相。

在2018年的双11中,实时数据处理技术,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。可以说,实时计算完成了三项世界级的挑战:
1、低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程延时控制在3秒以内;
2、实时计算处理峰值达到17.2亿条/秒,实时计算的整体性能比去年提升了N倍;
3、高可用,全天服务不降级、无故障,扛下了高峰期所有的流量。

一站式、高性能实时大数据处理平台
阿里云实时计算是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛应用于流式数据处理、离线数据处理、DataLake计算等场景,助力企业向实时化、智能化大数据计算升级转型。

基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,在阿里云上的产品命名为时时计算,以Flink SQL为主要API,致力于打造一款全球领先的实时计算引擎。

技术分享图片

据了解,阿里云实时计算脱胎于阿里集团内部双11实时大屏业务,历经长期摸索和发展,将阿里集团本身沉淀多年的实时计算产品、架构、业务能够以云产品的方式对外提供服务,用户可以完全享受到阿里集团最新最前沿的计算引擎能力,业务上可规避阿里集团多年在流式大数据的试错和教训,更快、更轻松地实时化大数据处理流程,助力业务发展。

经过多年沉淀,目前,阿里云实时计算产品已具有国际领先的产品优势,在吞吐/时延、SQL支持、开发体验、窗口支持、乱序支持、上下游对接等多方面都优于其他云厂商的相关产品。相对spark、storm等,阿里云实时计算人力成本低,开发运维更加便利,还可以无缝对接阿里云数据存储。用户可以充分利用阿里云实时计算提供的产品优势,方便快捷的解决自身业务实时化大数据分析的问题。

技术分享图片

切实解决用户痛点
阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,阿里云实时计算同时为部分授信用户提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1、流式数据的及时性
数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。而传统的大数据处理模式对于数据加工均遵循传统日清日毕模式,即以小时甚至以天为计算周期对当前数据进行累计并处理,显然这类处理方式无法满足数据实时计算的需求。在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2、一站式的流式数据处理
不同于开源或者自建的流式处理服务,阿里云实时计算是完全托管的流式计算引擎,阿里云可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3、SQL化的流式分析
支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

同时,实现实时的数据监控/分析。比如BI人员可以看到自己网站实时的访客数据变化,购买情况,交易额波动等,不需要一段时间后才能做统计和分析。之前150人/月的工作,现在只需3个人/月就可以轻松解决,效率提升了50倍。

使用场景广泛
实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:
互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;
金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;
物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;
电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

技术分享图片

用户案例丰富
经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

技术分享图片

独享模式应运而生

技术分享图片

实时计算今年4月份商业化以来,一直以“共享模式”的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;
2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

使用流程简洁方便
实时计算的基本计量单位为CU(Compute Unit,即计算资源),一个CU对应于实时计算底层系统是一个CPU的计算能力。实时计算底层使用虚拟化技术进行资源隔离,保证一个基本的CU消费且最大消费仅能为一个CPU的计算能力。

产品的具体使用也十分方便,具体来说有以下几步:
技术分享图片

以上是关于下一代大数据处理引擎,阿里云实时计算独享模式重磅发布的主要内容,如果未能解决你的问题,请参考以下文章

最新发布!《阿里云实时计算 Flink 版解决方案白皮书-2021版》开放下载

阿里云实时计算的前世“功”今生“能”

回顾 | 阿里云实时计算专场 · 北京站

首批+唯一!阿里云实时计算 Flink 版通过信通院大数据产品稳定性测试

国内首批!阿里云实时计算 Flink 版通过信通院大数据产品能力测试

上:Spark VS Flink – 下一代大数据计算引擎之争,谁主沉浮?