Spark Streaming 2.2.0 性能调优
Posted @SmartSi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 2.2.0 性能调优相关的知识,希望对你有一定的参考价值。
传送门:Spark 系统性学习笔记
Spark 版本:2.2.0
Spark Streaming 应用程序要获得最佳性能需要做一些调整优化。这篇文章我们介绍可以提高你应用程序性能的参数以及配置。从高层次来看,你需要关心两件事情:
- 通过充分利用集群资源,减少每批次数据的处理时间。
- 设置合理的批次大小,从而尽可能快的处理每批次的数据,即数据处理速度与数据接收速度保持一致。
1. 减少每批次的处理时间
在 Spark 中可以进行许多优化来减少每批次的处理时间。这些已在 Tuning Guide 中详细讨论。在这重点介绍了一些最重要的优化点。
1.1 提升数据接收的并行度
通过网络接收数据(如Kafka,Flume,Socket等)需要将数据反序列化并存储在 Spark 中。如果数据接收成为系统的瓶颈,则需要考虑并行化接收数据。
1.1.1 提升 Receiver 的并发度
每一个输入 DStream 都会创建一个 Receiver(运行在 Worker 节点上&
以上是关于Spark Streaming 2.2.0 性能调优的主要内容,如果未能解决你的问题,请参考以下文章
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN