Streaming 101:批处理之外的流式世界第一部分

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Streaming 101:批处理之外的流式世界第一部分相关的知识,希望对你有一定的参考价值。

数据流处理在大数据当中是越来越重要,主要是因为:

  • 希望得到更及时的数据,切换到流处理以实现更低的延迟。
  • 使用这种为无限数据流设计的系统更容易处理越来越普遍的海量、无限数据集。
  • 在数据到达时对其进行处理可以随着时间的推移更均匀地分散负载,从而产生更一致和可预测的资源消耗。

尽管这些业务需求驱动了流式处理的发展,但与批处理相比,现有的流式处理系统仍然相对不成熟,这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背景信息,再深入了解有关时间详细信息之前先明确饿一些术语的真实含义,并对批处理和流式处理的常用方法进行一些高层次的概述。

1. 背景

首先,我会介绍一些重要的背景信息,这些信息会有助于理解我要讨论的其它话题,我会从如下三个方面介绍:

  • 术语:如果要对复杂话题进行准确地谈论,那么就需要对术语有准确的定义。对于某些在当前使用中有不同解释(解释不清或者有歧义)的术语,我会明确地解释它们的含义。
  • 能力:我会介绍流处理系统的缺点(能做什么以及不能做什么)。我还将提出我认为数据处理系统建设者应该具有的思路,以满足未来现代数据消费者的需求。
  • 时间概念:我会将介绍与数据处理相关的两个时间概念以及它们之间的区别,并解答这两个概念给我们带来的的一些疑惑。

1.1 术语:什么是流?

在进一步讨论之前,我们首先要弄清楚一件事情:什么是流?流这个术语在今天已经有了不同的解释,这可能会对理解什么是真正的流以及流系统能用来干什么产生误解。因此,在这里我需要明确定义什么是流。

问题的症结在于

以上是关于Streaming 101:批处理之外的流式世界第一部分的主要内容,如果未能解决你的问题,请参考以下文章

Streaming 101:批处理之外的流式世界第一部分

Streaming 101:批处理之外的流式世界第一部分

Streaming 101

Flink 系统性学习笔记

Flink 系统性学习笔记

什么是实时流式计算?