流式计算概述

Posted 鸢尾楚楚

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了流式计算概述相关的知识,希望对你有一定的参考价值。

增量计算、流式计算、批量计算的区别?

  • 流式计算(流式计算是一种特殊的增量计算)

利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求

  • 实时计算(ad-hoc computing,计算不可枚举,计算在query时发生)

数据的实时计算,支持在大数据集的在线复杂实时计算(实时数据的实时计算)

  • 增量计算

优势:
  1. 中间计算结果实时产出

  2. 时效性强

  3. 平摊计算

  4. 中间计算状态不膨胀

  5. 有状态的failover(容错效率高)

  6. 批次运算(将整个数据进行recomputing,克服数据倾斜能力,降低数据倾斜对整个计算性能的退化的影响)

增量计算与流式计算

应用场景
  1. 日志采集与在线分析

  2. 大数据的预处理

  3. 风险监测与告警(对交易业务的虚假交易进行实时监测与分析)

  4. 网站与移动应用统计分析(双11运营、淘宝量子统计等各类统计业务分析中,提供实时的业务统计分析报表)

  5. 网络安全监测(实时监控、实时分析、实时监测、实时对抗、在线服务计量与计费管理系统)

  6. 工业4.0(实时计算、流式计算)

  7. 物联网(实时计算、流式计算)

特点
1.数据特点 --> 流

由业务产生的有向无界的数据流

  1. 不可控性

到达时机:不同的数据通路,到达的时机完全不可控
UPDATE语句:对系统后续的设计、容错及语义方面产生极大的影响
相关数据顺序
数据质量
数据规模
离线计算、批量计算:数据仓库的质量体系构筑的比较完善

  1. 体系缺失

数据源的治理
数据质量的治理

  1. 时效性要求(对整个计算处理的数据力度,有更高的要求)

容错方案
体系结构
结果输出

2.处理粒度最小

对整个系统架构具有决定性影响

3.处理算子对状态的影响不同
  1. 无状态计算

  2. 有状态计算

  3. 数据进入顺序有要求

4.输出要求
  1. 一致性

  2. 连贯性

5.计算特点
  1. 时效性:高

  2. 质量:准

  3. 容错:稳

  4. 多样性:多(精确、只多不少、丢sla)




以上是关于流式计算概述的主要内容,如果未能解决你的问题,请参考以下文章

大数据流式计算三种框架:Storm,Spark和Samza

什么是实时流式计算?

搜狗商业广告流式计算实践

数据亲和架构--流式计算

轻量级边缘流式计算框架Creek实战

系统部署 | 大数据流式计算的应用特征和技术挑战