Spark StreamingSpark Day11：Spark Streaming 学习笔记

Posted 2021-12-24 Maynor的大数据奋斗之路

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark StreamingSpark Day11：Spark Streaming 学习笔记相关的知识，希望对你有一定的参考价值。

Spark Day11：Spark Streaming

01-[了解]-昨日课程内容回顾

主要讲解：Spark Streaming 模块快速入门

1、Streaming 流式计算概述
	- Streaming 应用场景
		实时报表RealTime Report
		实时增量ETL
		实时预警和监控
		实时搜索推荐
		等等
	- 大数据架构：Lambda架构
		离线分析，实时计算
		分为三层：
			- 批处理层，BatchLayer
			- 速度层，SpeedLayer
			- 服务层，ServingLayer
	- 流式数据处理模式
		第一种模式：原生流处理native
			来一条数据，处理一条数据
		第二种模式：微批处理Mirco-Batch
			将流式数据划分小批次，每个小批次快速处理
	- SparkStreaming 计算思想
		将流式数据按照时间间隔BatchInterval划分为很多批次Batch，每批次数据当做RDD，进行处理分析
		DStream = Seq[RDD/Batch]

2、快速入门：词频统计WordCount
	- 需求：
		使用SparkStreaming对流式数据进行分析，从TCP Socket读取数据，对每批次数据进行词频统计，打印控制台，【注意，此处词频统计不是全局的，而是每批次的（局部）】
	- 官方案例
		run-example
	- SparkStreaming应用开发入口
		StreamingContext，流式上下文实例对象
		开发步骤：
			数据源DStream、数据处理和输出（调用DStream中函数）、启动流式应用start、等待终止await，最后关闭资源stop
	- 编程开发，类似RDD中词频统计，调用函数flatMap、map、redueByKey等
	- 流式应用原理
		- 运行程序时，首先创建StreamingContext对象，底层sparkContext
		- ssc.start，启动接收器Receivers，每个接收器以Task方式运行在Executor中
		- Receiver接收器开始从数据源接受数据，按照时间间隔BlockInterval划分数据时Block，默认200ms，将Block存储到Executor内存中，如果设置多副本，在其他Executor再进行存储，最后发送BlockReport给SSC
		- 当达到BatchINterval批次时间间隔时，产生一个Batch批次，将Block分配到该批次，底层将改配中数据当做RDD进行处理分析
		

3、数据结构：DStream = Seq[RDD]
	封装数据流，数据源源不断产生，按照时间间隔划分为很多批次Batch，DStream = Seq[RDD]
	函数：2种类型
		- 转换函数Transformation，类似RDD中转换函数
		- 输出函数Output
	2个重要函数，都是针对每批次RDD进行操作
		- 转换函数：tranform(rdd => rdd)
		- 输出函数：foreachRDD(rdd => Unit)
		修改词频统计代码

02-[了解]-今日课程内容提纲

主要讲解三个方面内容：集成Kafka，应用案例（状态、窗口）和偏移量管理

1、集成Kafka
	SparkStreaming实际项目中，基本上都是从Kafka消费数据进行实时处理
	- 集成时2套API
		由于Kafka Consumer API有2套，所以集成也有2套API
	- 编写代码
		如何从Kafka消费数据，必须掌握
	- 获取每批次数据偏移量信息
		offset

2、应用案例：百度搜索排行榜
	进行相关初始化操作
		- 工具类，创建StreamingContext对象和消费Kafka数据
		- 模拟数据生气生成器，实时产生用户搜索日志数据，发送到Kafka中
	- 实时ETL（无状态）
	- 累加统计（有状态）
	- 窗口统计

3、偏移量管理
	SparkStreaming一大败笔，需要用户管理从Kafka消费数据偏移量，了解知识点即可

03-[理解]-流式应用技术栈

在实际项目中，无论使用Storm还是Spark Streaming与Flink，主要从Kafka实时消费数据进行处理分析，流式数据实时处理技术架构大致如下：

- 数据源Source
	分布式消息队列Kafka
		flume集成Kafka
		调用Producer API写入数据
		Canal实时间mysql表数据同步到Kafka中，数据格式JSON字符串
		.....
		
- 应用程序运行
	目前企业中只要时流式应用程序，基本上都是运行在Hadoop YARN集群

- 数据终端
	将数据写入NoSQL数据库中，比如Redis、HBase、Kafka
	
Flume/SDK/Kafka Producer API -> KafKa  —> SparkStreaming/Flink/Storm  -> Hadoop YARN -> Redis -> UI

04-[理解]-Kafka回顾及集成Kafka两套API

Apache Kafka：最原始功能【消息队列】，缓冲数据，具有发布订阅功能（类似微信公众号）。

Kafka 框架架构图如下所示：

1、服务：Broker，每台机器启动服务
	一个Kafka集群，至少3台机器
2、依赖Zookeeper
	配置信息存储在ZK中
3、Producer生产者
	向Kafka中写入数据
4、Consumer 消费者
	从Kafka中消费数据，订阅数据

5、数据如何存储和管理
	使用Topic主题，管理不同类型数据，划分为多个分区partition，采用副本机制
		leader 副本：读写数据，1
		follower 副本：同步数据，保证数据可靠性,1或多个

Spark Streaming与Kafka集成，有两套API，原因在于Kafka Consumer API有两套，从Kafka 0.9版本开始出现New Consumer API，方便用户使用，从Kafka Topic中消费数据，到0.10版本稳定。

目前，企业中基本上都是使用Kafka New Consumer API消费Kafka中数据。
	- 核心类：KafkaConsumer、ConsumerRecorder

05-[掌握]-New Consumer API方式集成编程

使用Kafka 0.10.+提供新版本Consumer API集成Streaming，实时消费Topic数据，进行处理。

添加相关Maven依赖：

<!-- Spark Streaming 与Kafka 0.10.0 集成依赖-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version>2.4.5</version>
</dependency>

目前企业中基本都使用New Consumer API集成，优势如下：

第一、类似 Old Consumer API中Direct方式

第二、简单并行度1:1

工具类KafkaUtils中createDirectStream函数API使用说明（函数声明）：

官方文档：http://spark.apache.org/docs/2.4.5/streaming-kafka-0-10-integration.html

首先启动Kafka服务，创建Topic：wc-topic

[root@node1 ~]# zookeeper-daemon.sh start 

[root@node1 ~]# kafka-daemon.sh start 

[root@node1 ~]# jps
2945 Kafka

# 使用KafkaTools创建Topic，设置1个副本和3个分区


kafka-console-producer.sh --topic wc-topic --broker-list node1.itcast.cn:9092

具体实现代码，其中需要创建位置策略对象和消费策略对象

package cn.itcast.spark.kafka

import java.util

import org.apache.commons.lang3.time.FastDateFormat
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream, InputDStream
import org.apache.spark.streaming.kafka010.ConsumerStrategies, ConsumerStrategy, KafkaUtils, LocationStrategies, LocationStrategy
import org.apache.spark.streaming.Seconds, StreamingContext

/**
 * Streaming通过Kafka New Consumer消费者API获取数据
 */
object _01StreamingSourceKafka 
	
	def main(args: Array[String]): Unit = 
		
		// 1. 构建StreamingContext实例对象，传递时间间隔BatchInterval
		val ssc: StreamingContext = 
			// a. 创建SparkConf对象，设置应用基本信息
			val sparkConf = new SparkConf()
    			.setAppName(this.getClass.getSimpleName.stripSuffix("$"))
    			.setMaster("local[3]")
				// 设置数据输出文件系统的算法版本为2
				.set("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
			// b. 创建实例对象，设置BatchInterval
			new StreamingContext(sparkConf, Seconds(5))
		
		
		// 2. 定义数据源，获取流式数据，封装到DStream中
		// TODO: 从Kafka消费数据，采用New Consumer API方式
		/*
		  def createDirectStream[K, V](
		      ssc: StreamingContext,
		      locationStrategy: LocationStrategy,
		      consumerStrategy: ConsumerStrategy[K, V]
		   ): InputDStream[ConsumerRecord[K, V]]
		 */
		// a. 位置策略对象
		val locationStrategy: LocationStrategy = LocationStrategies.PreferConsistent
		// b. 消费策略
		val kafkaParams: Map[String, Object] = Map[String, Object](
			"bootstrap.servers" -> "node1.itcast.cn:9092",
			"key.deserializer" -> classOf[StringDeserializer],
			"value.deserializer" -> classOf[StringDeserializer],
			"group.id" -> "gui-1001",
			"auto.offset.reset" -> "latest",
			"enable.auto.commit" -> (false: java.lang.Boolean)
		)
		val consumerStrategy: ConsumerStrategy[String, String] = ConsumerStrategies.Subscribe(
			Array("wc-topic"), //
			kafkaParams //
		)
		// c. 采用New Consumer API获取Kafka Topic中数据
		val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream(
			ssc, //
			locationStrategy, //
			consumerStrategy //
		)
		
		// 仅仅获取Kafka Topic中Value数据：Message消息
		val inputDStream: DStream[String] = kafkaDStream.map(record => record.value())
		
		// 3. 依据业务需求，调用DStream中转换函数（类似RDD中转换函数）
		/*
			def transform[U: ClassTag](transformFunc: RDD[T] => RDD[U]): DStream[U]
		 */
		// 此处rdd就是DStream中每批次RDD数据
		val resultDStream: DStream[(String, Int)] = inputDStream.transform rdd =>
			rdd
				.filter(line => null != line && line.trim.length > 0)
				.flatMap(line => line.trim.split("\\\\s+"))
				.map(word => (word, 1))
				.reduceByKey((tmp, item) => tmp + item)
		
		
		// 4. 定义数据终端，将每批次结果数据进行输出
		/*
			def foreachRDD(foreachFunc: (RDD[T], Time) => Unit): Unit
		 */
		resultDStream.foreachRDD((rdd, time) => 
			//val xx: Time = time
			val format: FastDateFormat = FastDateFormat.getInstance("yyyy/MM/dd HH:mm:ss")
			println("-------------------------------------------")
			println(s"Time: $format.format(time.milliseconds)")
			println("-------------------------------------------")
			// 判断每批次结果RDD是否有数据，如果有数据，再进行输出
			if(!rdd.isEmpty())
				rdd.coalesce(1).foreachPartition(iter => iter.foreach(println))
			
		)
		
		// 5. 启动流式应用，等待终止
		ssc.start()
		ssc.awaitTermination()
		ssc.stop(stopSparkContext = true, stopGracefully = true)

06-[理解]-集成Kafka时获取消费偏移量信息

当 SparkStreaming 集成 Kafka 时，无论是 Old Consumer API 中 Direct 方式还是 NewConsumer API方式获取的数据，每批次的数据封装在KafkaRDD中，其中包含每条数据的元数据信息。

当流式应用程序运行时，在WEB UI监控界面中，可以看到每批次消费数据的偏移量范围，能否在程序中获取数据呢？？

官方文档：http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html#obtaining-offsets

获取偏移量信息代码如下：

修改前面代码，获取消费Kafka数据时，每个批次中各个分区数据偏移量范围：

package cn.itcast.spark.kafka

import org.apache.commons.lang3.time.FastDateFormat
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream, InputDStream
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.Seconds, StreamingContext

/**
 * Streaming通过Kafka New Consumer消费者API获取数据，获取每批次处理数据偏移量OFFSET
 */
object _02StreamingKafkaOffset 
	
	def main(args: Array[String]): Unit = 
		
		// 1. 构建StreamingContext实例对象，传递时间间隔BatchInterval
		val ssc: StreamingContext = 
			// a. 创建SparkConf对象，设置应用基本信息
			val sparkConf = new SparkConf()
    			.setAppName(this.getClass.getSimpleName.stripSuffix("$"))
    			.setMaster("local[3]")
				// 设置数据输出文件系统的算法版本为2
				.set("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
			// b. 创建实例对象，设置BatchInterval
			new StreamingContext(sparkConf, Seconds(5))
		
		
		// 2. 定义数据源，获取流式数据，封装到DStream中
		// TODO: 从Kafka消费数据，采用New Consumer API方式
		/*
		def createDirectStream[K, V](
		      ssc: StreamingContext,
		      locationStrategy: LocationStrategy,
		      consumerStrategy: ConsumerStrategy[K, V]
		    ): InputDStream[ConsumerRecord[K, V]]
		 */
		// step1. 表示消费Kafka中Topic数据时，位置策略
		val locationStrategy: LocationStrategy = LocationStrategies.PreferConsistent
		// step2. 表示消费Kafka中topic数据时，消费策略，封装消费配置信息
		/*
	        def Subscribe[K, V](
		      topics: Iterable[jl.String],
		      kafkaParams: collection.Map[String, Object]
		    ): ConsumerStrategy[K, V]
		 */
		val kafkaParams: collection.Map[String, Object] = Map(
			"bootstrap.servers" -> "node1.itcast.cn:9092", //
			"key.deserializer" -> classOf[StringDeserializer],
			"value.deserializer" -> classOf[StringDeserializer],
			"group.id" -> "groop_id_1001",
			"auto.offset.reset" -> "latest",
			"enable.auto.commit" -> (false: java.lang.Boolean)
		)
		val consumerStrategy: ConsumerStrategy[String, String] = ConsumerStrategies.Subscribe (
			Array("wc-topic"), kafkaParams
		)
		// step3. 使用Kafka New Consumer API消费数据
		val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream(
			ssc, locationStrategy, consumerStrategy
		)
		
		// TODO: 其一、定义数组，用于存储偏移量
		var offsetRanges: Array[OffsetRange] = Array.empty[OffsetRange] // 每个Kafka分区数据偏移量信息封装在OffsetRange对象中
		
		// 3. 依据业务需求，调用DStream中转换函数（类似RDD中转换函数）
		/*
			def transform[U: ClassTag](transformFunc: RDD[T] => RDD[U]): DStream[U]
		 */
		// 此处rdd就是DStream中每批次RDD数据
		val resultDStream: DStream[(String, Int)] = kafkaDStream.transform rdd =>
			// TODO: 此时直接针对获取KafkaDStream进行转换操作，rdd属于KafkaRDD，包含相关偏移量信息
			// TODO: 其二、转换KafkaRDD为HasOffsetRanges类型对象，获取偏移量范围
			offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
			
			rdd
				.map(record => record.value())
				.filter(line => null != line && line.trim.length > 0)
				.flatMap(line => line.trim.split("\\\\s+"))
				.map(word => (word, 1))
				.reduceByKey((tmp, item) => tmp + item)
		
		
		// 4. 定义数据终端，将每批次结果数据进行输出
		/*
			def foreachRDD(foreachFunc: (RDD[T], Time) => Unit): Unit
		 */
		resultDStream.foreachRDD((rdd, time) => 
			//val xx: Time = time
			val format: FastDateFormat = FastDateFormat.getInstance("yyyy/MM/dd HH:mm:ss")
			println("-------------------------------------------")
			println(s"Time: $format.format(time.milliseconds)")
			println("-------------------------------------------")
			// 判断每批次结果RDD是否有数据，如果有数据，再进行输出
			if(!rdd.isEmpty())
				rdd.coalesce(1).foreachPartition(iter => iter.foreach(println))
			
			
			// TODO: 其三、当当前批次数据处理完成以后，打印当前批次中数据偏移量信息
			offsetRanges.foreachoffsetRange =>
				println(s"topic: $offsetRange.topic    partition: $offsetRange.partition    offsets: $offsetRange.fromOffset to $offsetRange.untilOffset")
			
		)
		
		// 5. 启动流式应用，等待终止
		ssc.start()
		ssc.awaitTermination()
		ssc.stop(stopSparkContext = true, stopGracefully = true)

07-[了解]-应用案例之业务场景和需求说明

仿【百度搜索风云榜】对用户使用百度搜索时日志进行分析：【百度搜索日志实时分析】，主要业务需求如下三个方面：

业务一：搜索日志数据存储HDFS，实时对日志数据进行ETL提取转换，存储HDFS文件系统；

业务二：百度热搜排行榜Top10，累加统计所有用户搜索词次数，获取Top10搜索词及次数；

业务三：近期时间内热搜Top10，统计最近一段时间范围（比如，最近半个小时或最近2个小时）内用户搜索词次数，获取Top10搜索词及次数；

开发Maven Project中目录结构如下所示：

08-[掌握]-应用案例之初始化环境和工具类

编程实现业务之前，首先编写程序模拟产生用户使用百度搜索产生日志数据和创建工具StreamingContextUtils提供StreamingContext对象与从Kafka接收数据方法。

启动Kafka Broker服务，创建Topic【search-log-topic】，命令如下所示：

模拟日志数据

模拟用户搜索日志数据，字段信息封装到CaseClass样例类【SearchLog】类，代码如下：

package cn.itcast.spark.app.mock

/**
 * 用户百度搜索时日志数据封装样例类CaseClass
 * <p>
 *
 * @param sessionId 会话ID
 * @param ip        IP地址
 * @param datetime  搜索日期时间
 * @param keyword   搜索关键词
 */
case class SearchLog(
	                    sessionId: String, //
	                    ip: String, //
	                    datetime: String, //
	                    keyword: String //
                    ) 
	override def toString: String = s"$sessionId,$ip,$datetime,$keyword"

模拟产生搜索日志数据类【MockSearchLogs】具体代码如下：

package cn.itcast.spark.app.mock

import java.util.Properties, UUID

import org.apache.commons.lang3.time.FastDateFormat
import org.apache.kafka.clients.producer.KafkaProducer, ProducerRecord
import org.apache.kafka.common.serialization.StringSerializer

import scala.util.Random

/**
 * 模拟产生用户使用百度搜索引擎时，搜索查询日志数据，包含字段为：
 *      uid, ip, search_datetime, search_keyword
 */
object MockSearchLogs 
    
    def main(args: Array[String]): Unit = 
    
        // 搜索关键词，直接到百度热搜榜获取即可
        val keywords: Array[String] = Array(
            "吴尊友提醒五一不参加大型聚集聚会", "称孩子没死就得购物导游被处罚", "刷视频刷出的双胞胎姐妹系同卵双生",
            "云公民受审认罪 涉嫌受贿超4.6亿", "印度男子下跪求警察别拿走氧气瓶", "广电总局:支持查处阴阳合同等问题",
            "75位一线艺人注销200家关联公司", "空间站天和核心舱发射成功", "中国海军舰艇警告驱离美舰",
            "印度德里将狗用火葬场改为人用", "公安部派出工作组赴广西", "美一男子遭警察跪压5分钟死亡",
            "华尔街传奇基金经理跳楼身亡", "阿波罗11号宇航员柯林斯去世", "刘嘉玲向窦骁何超莲道歉"
        )
        
        // 发送Kafka Topic
        val props = new Properties()
        props.put("bootstrap.servers", "node1.itcast.cn:9092")
        props.put("acks", "1")
        props.put("retries", "3")
        props.put("key.serializer", classOf[StringSerializer].getName)
        props.put("value.serializer", classOf[StringSerializer].getName)
        val producer = new KafkaProducer[String, String](props)
        
        val random: Random = new Random()
        while (true)
            // 随机产生一条搜索查询日志
            val searchLog: SearchLog = SearchLog(
                getUserId(), //
                getRandomIp(), //
                getCurrentDateTime(), //
                keywords(random.nextInt(keywords.length)) //
            )
            println(searchLog.toString)
            Thread.sleep(100 + random.nextInt(100))
            
            val record = new ProducerRecord[String, String]("search-log-topic", searchLog.toString)
            producer.send(record)
        
        // 关闭连接
        producer.close()
    
    
    /**
     * 随机生成用户SessionId
     */
    def getUserId(): String = 
        val uuid: String = UUID.randomUUID().toString
        uuid.replaceAll("-", "").substring(16)
    
    
    /**
     * 获取当前日期时间，格式为yyyyMMddHHmmssSSS
     */
    def getCurrentDateTime(): String = 
        val format =  FastDateFormat.getInstance("yyyyMMddHHmmssSSS")
        val nowDateTime: Long = System.currentTimeMillis()
        format.format(nowDateTime)
    
    
    /**
     * 获取随机IP地址
     */
    def getRandomIp(): String = 
        // ip范围
        val range: Array[(Int, Int)] = Array(
            (607649792,608174079Spark StreamingSpark Day10：Spark Streaming 学习笔记
 Spark StreamingSpark Day10：Spark Streaming 学习笔记
 Spark StreamingSpark Day10：Spark Streaming 学习笔记
 noip2013提高组day1第二题火柴排队
 day1
 Day1作业要求