Spark Streaming 第一个程序 WordCount

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 第一个程序 WordCount相关的知识,希望对你有一定的参考价值。

传送门:Spark 系统性学习笔记


Spark 版本:3.1.3

1. 概述

Spark Streaming 是 Spark Core API 的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如 Kafka,Flume,Kinesis 或 TCP 套接字等许多源中提取,并且可以使用由诸如 map,reduce,join 或者 window 等高级函数组成的复杂算法来处理。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到 Spark 的机器学习算法、 图处理算法中去。

内部工作原理如下图所示。Spark Streaming 接收实时输入数据流,并将数据分成多个批次,然后由 Spark 引擎处理,批量生成最终结果数据流。

Spark Strea

以上是关于Spark Streaming 第一个程序 WordCount的主要内容,如果未能解决你的问题,请参考以下文章

第16课:Spark Streaming源码解读之数据清理内幕彻底解密

(版本定制)第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止

第13课:Spark Streaming源码解读之Driver容错安全性

第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

(版本定制)第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

第12课:Spark Streaming源码解读之Executor容错安全性