Spark Streaming 基于 Direct API 优化与 Kafka 集成

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 基于 Direct API 优化与 Kafka 集成相关的知识,希望对你有一定的参考价值。

传送门:Spark 系统性学习笔记


Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:

  • 为 Kafka 新增了 Direct API - 这允许每个 Kafka 记录在发生故障时只处理一次,并且不使用 Write Ahead Logs。这使得 Spark Streaming + Kafka 流水线更高效,同时提供更强大的容错保证。
  • 为 Kafka 新增了 Python API - 这样你就可以在 Python 中处理 Kafka 数据。

在本文中,我们将更详细地讨论这些改进。

1. Direct API

Spark Streaming 自成立以来一直支持 Kafka,Spark Streaming 与 Kafka 在生产环境中的很多地方一起使用。但是,Spark 社区要求更好的容错保证和更强的可靠性语义。为了满足这一需求,Spark 1.2 引入了 预写日志 Write Ahead Logs(WALÿ

以上是关于Spark Streaming 基于 Direct API 优化与 Kafka 集成的主要内容,如果未能解决你的问题,请参考以下文章

Spark 学习笔记之 Streaming和Kafka Direct

spark-streaming对接kafka的两种方式

Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一

Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一

Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一

streaming kafka direct 详解