Storm简介——实时流式计算介绍

Posted 2020-11-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Storm简介——实时流式计算介绍相关的知识，希望对你有一定的参考价值。

概念

实时流式计算：

大数据环境下，流式数据将作为一种新型的数据类型，这种数据具有连续性、无限性和瞬时性。是实时数据处理所面向的数据类型，对这种流式数据的实时计算就是实时流式计算。

特征

实时流式计算与传统的数据处理技术不同，其具有一下特点：

低延迟：从处理的数据角度来看，每一条数据都可以在有限的时间内由系统成功处理完成，就是响应的时间很短。

高吞吐：从处理的过程角度来看，系统节点在单位时间内能够成功处理的数据量比较多，也就是高吞吐量。对于数据处理的目标本质来说高吞吐量和低延迟是一样的。

高容错：由于网络或其他原因，会出现错误或不完全的数据，系统对与这些数据都具有一定的容错性，不会因为这些

有缺失的数据导致系统崩溃。

算法复杂点比较低：高吞吐量的必然要求，就要求使用更加高效简单的算法。

使用场景

网站后台日志实时计算处理

运营商流量实时监控

交通数据实时处理

其他流式计算框架

Queue+Worker

Apache S4

Spark Streaming

（storm的计算是基于事件的，来一条数据流处理一条；spark streaming 是基于时间段来处理数据的，时间段可以越来越小，但不能基于事件来处理。这样就决定了storm的延迟性比spark streaming要小）

以上是关于Storm简介——实时流式计算介绍的主要内容，如果未能解决你的问题，请参考以下文章