Spark Streaming 2.2.0 性能调优

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 2.2.0 性能调优相关的知识,希望对你有一定的参考价值。

传送门:Spark 系统性学习笔记


Spark 版本:2.2.0

Spark Streaming 应用程序要获得最佳性能需要做一些调整优化。这篇文章我们介绍可以提高你应用程序性能的参数以及配置。从高层次来看,你需要关心两件事情:

  • 通过充分利用集群资源,减少每批次数据的处理时间。
  • 设置合理的批次大小,从而尽可能快的处理每批次的数据,即数据处理速度与数据接收速度保持一致。

1. 减少每批次的处理时间

在 Spark 中可以进行许多优化来减少每批次的处理时间。这些已在 Tuning Guide 中详细讨论。在这重点介绍了一些最重要的优化点。

1.1 提升数据接收的并行度

通过网络接收数据(如Kafka,Flume,Socket等)需要将数据反序列化并存储在 Spark 中。如果数据接收成为系统的瓶颈,则需要考虑并行化接收数据。

1.1.1 提升 Receiver 的并发度

每一个输入 DStream 都会创建一个 Receiver(运行在 Worker 节点上&

以上是关于Spark Streaming 2.2.0 性能调优的主要内容,如果未能解决你的问题,请参考以下文章

文末送书 | Spark Streaming 性能调优

译Yarn上常驻Spark-Streaming程序调优

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark 2.2.0 是不是支持 Streaming Self-Join?

Spark Streaming整合Kafka