Streaming 102:批处理之外的流式世界第二部分

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Streaming 102:批处理之外的流式世界第二部分相关的知识,希望对你有一定的参考价值。

1. 引言

欢迎回来!如果你错过了我之前的博文:Streaming 101:批处理之外的流式世界第一部分,我强烈建议你先花时间阅读这篇文章。在这篇文章介绍的内容是下面介绍内容的基础,并且当你阅读这篇文章时,我假设你已经熟悉第一篇文章中介绍的术语和概念了(有些东西在这篇文章不会详细介绍)。现在我们进入正题。先简要回顾一下,上篇文章我主要关注的三个方面:

  • 术语:当使用流等多语义术语时,明确了我要表达的意思;
  • 批与流的比较:比较这两种系统的理论能力,并提出流处理系统超越批处理系统只需要两件事:正确性和时间推理工具;
  • 数据处理模式:介绍批处理和流处理系统处理有限和无限数据时所采用的方法。

在这篇文章中,我接着上次进一步介绍数据处理模式,但这次借助具体示例来更详细的介绍。这篇文章主要分为两个章节:

  • Streaming 101 精简版:简要回顾 Streaming 101 中引入的概念,并借助具体示例来突出一下重点。
  • Streaming 102:Streaming 101 的姊妹篇,详细介绍处理无限数据集的一些其他重要概念,并通过一些具体示例来进行解释。

当我们读完这篇文章时,我们会学习到一个具有鲁棒性的乱序数据处理所需的核心原则和概念以及可以实现超越经典批处理系统的时间推理工具。为了让你有直观的感受,我会使用 Dataflow SDK 代码(即 Google Clo

以上是关于Streaming 102:批处理之外的流式世界第二部分的主要内容,如果未能解决你的问题,请参考以下文章

Flink 系统性学习笔记

Flink 系统性学习笔记

Streaming 101:批处理之外的流式世界第一部分

Streaming 101:批处理之外的流式世界第一部分

Streaming 101

The world beyond batch: Streaming 102(上篇)