spout和bolt

Posted 2020-08-27 majingwei

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spout和bolt相关的知识，希望对你有一定的参考价值。

Storm，核心代码使用clojure书写，实用程序使用python开发，使用java开发拓扑。

Storm集群表面类似Hadoop集群。但在Hadoop上你运行的是”MapReduce jobs”，在Storm上你运行的是”topologies”。”Jobs”和”topologies”是大不同的，一个关键不同是一个MapReduce的Job最终会结束，而一个topology永远处理消息（或直到你kill它）。
Storm集群有两种节点：控制（master）节点和工作者（worker）节点。
控制节点运行一个称之为”Nimbus”的后台程序，它类似于Haddop的”JobTracker”。Nimbus负责在集群范围内分发代码、为worker分配任务和故障监测。
每个工作者节点运行一个称之”Supervisor”的后台程序。Supervisor监听分配给它所在机器的工作，基于Nimbus分配给它的事情来决定启动或停止工作者进程。每个工作者进程执行一个topology的子集（也就是一个子拓扑结构）；一个运行中的topology由许多跨多个机器的工作者进程组成
一个Zookeeper集群负责Nimbus和多个Supervisor之间的所有协调工作（一个完整的拓扑可能被分为多个子拓扑并由多个supervisor完成）。

此外，Nimbus后台程序和Supervisor后台程序都是快速失败（fail-fast）和无状态的；所有状态维持在Zookeeper或本地磁盘。这意味着你可以kill -9杀掉nimbus进程和supervisor进程，然后重启，它们将恢复状态并继续工作，就像什么也没发生。这种设计使storm极其稳定。这种设计中Master并没有直接和worker通信，而是借助一个中介Zookeeper，这样一来可以分离master和worker的依赖，将状态信息存放在zookeeper集群内以快速回复任何失败的一方。

nimbus为主节点，一般只有一个，supervisor为从节点，可以有多个；

Nimbus节点接收到请求，对提交的拓扑进行分片，分成一个个的task,并将task和supervisor相关的信息提交到zookeeper集群上，supervisor会去zookeeper集群上领自己的task,通知自己的worker进程进行Task的处理。

Spout的主要方法：

open(Map conf,TopologyContext context,SpoutOutputCollector collector) close() nextTuple() ack(Object msgId) fail(Object msgId)

open() :初始化方法

close():spout将要关闭时调用，但是不保证其一定被调用，因为在集群中supervisor节点，可以使用kill -9来杀死worker进程，只用storm是在本地模式下运行，如果是发送停止命令，是可以保证close执行的。

declareOutputFields方法：

声明要输出的tuple的字段名称。

void ack(Object msgid)

成功处理tuple时回调的方法，通常情况下，此方法的实现是将消息队列中的消息移除，防止重发。

void fail(Object msgid)

处理tuple失败时的回调方法，通常情况下，此方法的实现是将消息放回消息队列中然后在稍后时间里重发。

nextTuple()

Storm框架会一直调用此方法，输出无级到outputcollector.这种方法应该是非阻塞的。nextTuple,ack and fail都在spout任务的同一个线程中被循环调用。

public void nextTuple() {
this.collector.emit(new Values(sentences[index]));
index++;
if (index >=sentences.length) {
index=0;
}
Utils.sleep(1);
}

通常情况下，实现一个spout，可以直接实现IRichSpout，或者直接继承BaseRichSpout，可以少写些许代码。

Bolt

prepare()此方法与spout中的open()或mapper/reducer中的setup方法类似，在Task初始化时调用，它提供了bolt的执行环境。

void cleanup()在关闭前调用，同样不保证其一定执行。

execute()方法接收一个tuple并进行处理，并用prepare方法传入的outputcollector的ack方法或fail来反馈处理结果。

实现bolt,可以实现irichbolt接口或继承baseRichbolt，如果自己不想处理结果反馈，可以实现IbaseBolt接口或继承BaseBasicBolt,它实际上自动实现了collector.emit.ack(inputtuple).

以上是关于spout和bolt的主要内容，如果未能解决你的问题，请参考以下文章