Spark Streaming 第一个程序 WordCount
Posted @SmartSi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 第一个程序 WordCount相关的知识,希望对你有一定的参考价值。
传送门:Spark 系统性学习笔记
Spark 版本:3.1.3
1. 概述
Spark Streaming 是 Spark Core API 的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如 Kafka,Flume,Kinesis 或 TCP 套接字等许多源中提取,并且可以使用由诸如 map,reduce,join 或者 window 等高级函数组成的复杂算法来处理。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到 Spark 的机器学习算法、 图处理算法中去。
内部工作原理如下图所示。Spark Streaming 接收实时输入数据流,并将数据分成多个批次,然后由 Spark 引擎处理,批量生成最终结果数据流。
Spark Strea
以上是关于Spark Streaming 第一个程序 WordCount的主要内容,如果未能解决你的问题,请参考以下文章
第16课:Spark Streaming源码解读之数据清理内幕彻底解密
(版本定制)第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
第13课:Spark Streaming源码解读之Driver容错安全性
第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考
(版本定制)第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密