为啥近实时调用火花流？

Posted 2023-02-16

技术标签:

【中文标题】为啥近实时调用火花流？【英文标题】：why is spark streaming called near real time?为什么近实时调用火花流？ 【发布时间】：2017-10-11 04:30:34 【问题描述】：

我知道 Spark Streaming 使用微批处理来处理数据，但在某些情况下处理时间不到一秒。我的问题是“在那个场景中，它不能被称为纯实时处理而不是接近实时处理吗？”

【问题讨论】：

【参考方案1】：

我想说我们只能在收集数据并直接推送到仪表板或系统时谈论指标、警报和优化的实时性，没有任何类型的 ETL 过程，实时性的目的主要是，速度。

只要有一个批处理过程提取历史趋势或基准测试，尽管它需要不到一秒的时间，那么它不是实时的，而是接近实时的，那是因为他们谈论的是接近实时的。

所以，要回答您的问题，我会说不，它接近实时，因为您正在批处理和处理。

希望对你有帮助。

胡安

【讨论】：

我刚刚问过我们的大数据专家（他在我的右边工作），他说在大数据中 Spark Streaming 被认为是接近实时的，因为他的精度接近毫秒并且使用框架像 Storm 或新的 Spark（结构化流）一样，您可以在纳秒级精度上工作，这就是大数据中的纯粹主义者所说的实时。【参考方案2】：

Spark Streaming 将数据流分成 X 秒的批次，称为 Dstream，在内部是一个 RDD 序列，每个批次间隔一个。每个 RDD 都包含在批处理间隔期间收到的记录。因为它的小批量处理称为近实时而不是实时。

【讨论】：

以上是关于为啥近实时调用火花流？的主要内容，如果未能解决你的问题，请参考以下文章