百度深耕边缘计算 基于Apache Flink首创边缘流式计算框架
Posted 百度智能云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度深耕边缘计算 基于Apache Flink首创边缘流式计算框架相关的知识,希望对你有一定的参考价值。
11月29日,备受Flink开发者和使用者关注的盛会——Flink Forward Asia 2019火热开幕,展示Flink社区的最新动态和发展计划,以及国内外一线大厂围绕Flink生态的生产实践经验。
百度智能云资深研发工程师、IoT 实时计算负责人在大会上发表了“
基于Apache Flink的边缘流式计算
”的主题演讲,并重点介绍了百度基于Flink自研的边缘流式计算框架Creek,其性能十分强大,可将流式作业内存消耗降低到10M以内。
这是百度在边缘设备流式计算领域的首创,标志着百度正在以更硬核的计算实力,从云端计算向边缘计算进军。
一方面可以在靠近设备的地方对各种数据进行监控,并且在异常发生时提供低延迟的反控;
另一方面,流式计算数据聚合能力,可以在边缘端对原始数据进行清洗和汇聚,将聚合后的数据上报云端,大大减少数据传输的带宽成本。
而目前流式计算的框架,多专注于云端高性能服务器集群,提供分布式、高吞吐的计算能力;但是,其资源消耗通常比较大,使得大部分边缘设备无法负担;同时,因依赖的模块和组件比较多,作业的部署也相对比较复杂。
在保留对现有流式计算接口兼容的情况下,将作业的内存消耗下降到10MB以内,使得绝大多数设备担负得起;
另外,部署方式上也进行了创新,将一个流式作业所有的依赖进行编译成一个可执行文件,使之对运行环境实现零依赖,下载即运行,大大提高作业部署和运行的鲁棒性。
5G、IoT等技术的发展,对计算的能力和全面性提出了更高的要求,计算正在从以云端为主的阵地蔓延到更多地方,其中一个典型的场景就是边缘计算。而与云端强大的计算集群相比,其它场景设备的计算能力非常受限。虽然Apache Flink作为新一代流式计算引擎,已经广泛应用于诸多互联网公司的云端,但是如何在资源极度受限的边缘设备上运行流式计算引擎,尚无成功案例可循。
百度智能云技术团队认为,Apache Flink不应该仅仅运行在云端,而应该运行在任何需要设备上。将云端的计算能力延伸到包括边缘设备在内的其它设备上,已经成为行业的普遍需求。
流式计算,是指对源源不断的数据流进行实时的计算,并且实时输出计算结果,方便用户对大量的数据进行实时分析。
百度基于Flink自研的
边缘流式计算框架Creek
,属于一种相比传统流式计算,更加轻量级的流式计算。其功能与传统流式计算相似,但资源消耗得到大幅度降低,而且部署更简单,可以运行在边缘和云端。
长期以来,流式计算在边缘端的开展面临着内存压力、磁盘压力、作业管理依赖多等多重挑战,百度推出Creek以后,有效地解决了计算作业过程中的两大主要难题。
首先,边缘流式计算框架Creek能够缓解内存不足的压力。
现有常见流式计算框架,通常需要消耗几百MB到几百GB的内存空间,大大挤压其他应用的运行空间,或者根本无法运行。使用边缘流式计算框架Creek,可以将流式作业内存消耗降低到10M以内,相比传统方式实现2个数量级的下降,使得计算能力受限的边缘设备也可以跑流式作业。
其次,作业以静态编译的可执行文件的方式提供,实现对运行环境零依赖。
相比以前的方案,省去了JVM, master, worker等依赖的安装和部署。
例如,包括智能工业质检在内的多个场景都需要应用机器视觉模型,大量图片的识别本身需要一定消耗内存空间,百度开放边缘框架联合智能边缘BIE云端管理套件,其中Creek的运行可以帮助提高视觉模型轻松部署到本地设备上的能力,同时通过降低内存消耗提高识别响应速度,使质检过程快速而流畅。
可见,无论是在减少内存消耗上,还是形成独立可执行文件的作业形态,百度在边缘的计算能力都因Creek的应用上升到了新的高度。
与其它流式计算产品相比,百度Creek具有独特的行业领先优势。它与已有云上流式计算产品(规则引擎)有两个个主要区别:
第一,规则引擎运行在云端,Creek可以运行在任何地方,包括边缘和云端;
第二,规则引擎是针对单消息的处理,Creek可以进行单消息和基于窗口多消息的聚合分析,计算的能力是不同的。
另外,相比于行业内其他边缘计算产品,百度Creek能够提供与主流的flink兼容的sql接口,支持完整的流式计算、完善的语意验证、丰富的connectors,且下载即运行。
目前Creek已经在多个实际场景的数据计算中得到应用。
以无人车为例,对多路视频输入进行合并运算,结构化后数据送云端保存和分析,比如应用在自动驾驶出租车队Robotaxi上,能够实现实时监测全路段路况信息,同时可以远距离车辆V2V,并提高路况感知的精确度,为自动驾驶车辆保驾护航;
在工业互联网领域,就地将各种传感器采集的数据进行聚合,聚合后数据推送到云端,减少数据传输的带宽开销;
在智能楼宇方面,通过对多点位数据进行实时监控,并对异常指标进行快速的响应,提升时效性。
百度边缘流式计算框架Creek的出现,为突破计算能力的场景限制创造了条件,作为边缘计算领域首创,填补了行业在边缘设备上运行流式计算引擎的空白,也为边缘计算的未来发展提供了参考范式。在Creek的加持下,百度的计算实力得到更全面的增强,将为“云+AI”能力的输出和产业化落地提供更加坚实的算力基础。
欢迎点击
【阅读原文】
,试用流式计算Creek产品。
以上是关于百度深耕边缘计算 基于Apache Flink首创边缘流式计算框架的主要内容,如果未能解决你的问题,请参考以下文章
Flink从入门到精通100篇(二十三)-基于Apache Flink的爱奇艺实时计算平台建设实践
Apache Flink 2022 新年大礼包
Apache Flink快速入门-基本架构、核心概念和运行流程
Apache Flink SQL
百度智能云推计算框架Creek 让流式计算能力延伸至每个边缘节点
Apache-Flink深度解析-State