Spark Streaming 基于 Direct API 优化与 Kafka 集成

Posted 2022-10-13 @SmartSi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark Streaming 基于 Direct API 优化与 Kafka 集成相关的知识，希望对你有一定的参考价值。

传送门：Spark 系统性学习笔记

Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此，在 Apache Spark 1.3 中，我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下：

为 Kafka 新增了 Direct API - 这允许每个 Kafka 记录在发生故障时只处理一次，并且不使用 Write Ahead Logs。这使得 Spark Streaming + Kafka 流水线更高效，同时提供更强大的容错保证。
为 Kafka 新增了 Python API - 这样你就可以在 Python 中处理 Kafka 数据。

在本文中，我们将更详细地讨论这些改进。

1. Direct API

Spark Streaming 自成立以来一直支持 Kafka，Spark Streaming 与 Kafka 在生产环境中的很多地方一起使用。但是，Spark 社区要求更好的容错保证和更强的可靠性语义。为了满足这一需求，Spark 1.2 引入了预写日志 Write Ahead Logs（WALÿ

以上是关于Spark Streaming 基于 Direct API 优化与 Kafka 集成的主要内容，如果未能解决你的问题，请参考以下文章

Spark 学习笔记之 Streaming和Kafka Direct

spark-streaming对接kafka的两种方式

Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一

streaming kafka direct 详解