StructuredStreaming编程模型

Posted diyo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了StructuredStreaming编程模型相关的知识,希望对你有一定的参考价值。

StructuredStreaming编程模型

基本概念

技术图片

◆ Time    
◆ Trigger
◆ Input
◆ Query
◆ Result
◆ Output 

技术图片

 

案例模型:实时处理流单词统计编程模型
技术图片

 

处理Event-time(事件时间)和 Late Data (延迟数据)

◆ Event-time : 事件时间
◆ Late Data : 延迟数据
 

容错语义 

传递端到端一次语义是结构化流设计背后的关键目标之一。为了实现这一点,
我们设计了结构化流源(Structed Streaming Source)、接收器(Skin)和执行引擎
(execution engine)来进行可靠跟踪和精确进度处理,从而可以通过重新启动或再
处理来处理任何类型的故障。假设每个流Source具有偏移(类似于Kafka偏移或
动态序列号)来跟踪流中的读取位置。引擎使用检查点和写前日志来记录每个
触发器中正在处理的数据的偏移范围。流接收器Skin被设计为用于处理再处理
的幂等。在任何失败的情况下,同时使用可重复的Source和幂等Skin,结构化
流可以保证端到端完全一致的语义。 

以上是关于StructuredStreaming编程模型的主要内容,如果未能解决你的问题,请参考以下文章

大数据Spark Structured Streaming

Python爬虫编程思想(26):Twisted的异步编程模型

网络编程模型

Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十七)待整理

Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十九)待整理

编程模型&编程思想