流式计算的三种框架:StormSpark和Flink

Posted 168大数据CDO研习社

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了流式计算的三种框架:StormSpark和Flink相关的知识,希望对你有一定的参考价值。

数牛会

提供最具价值的

政策动态、研究报告、知识干货、最佳实践、战略内参、职场感悟

打造权威的数据知识体系与产业生态服务

加入万人数据社群、大牛/企业投稿、研究报告发布、商务合作等

我们知道,大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。 其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。
目前主流的流式计算框架有Storm、Spark Streaming、Flink三种,其基本原理如下:

Apache Storm

在Storm中,需要先设计一个实时计算结构,我们称之为拓扑(topology)。 之后,这个拓扑结构会被提交给集群,其中主节点(master node)负责给工作节点(worker node)分配代码,工作节点负责执行代码。 在一个拓扑结构中,包含spout和bolt两种角色。 数据在spouts之间传递,这些spouts将数据流以tuple元组的形式发送; 而bolt则负责转换数据流。