Spark Streaming 基于 Direct API 优化与 Kafka 集成
Posted @SmartSi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark Streaming 基于 Direct API 优化与 Kafka 集成相关的知识,希望对你有一定的参考价值。
传送门:Spark 系统性学习笔记
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:
- 为 Kafka 新增了 Direct API - 这允许每个 Kafka 记录在发生故障时只处理一次,并且不使用 Write Ahead Logs。这使得 Spark Streaming + Kafka 流水线更高效,同时提供更强大的容错保证。
- 为 Kafka 新增了 Python API - 这样你就可以在 Python 中处理 Kafka 数据。
在本文中,我们将更详细地讨论这些改进。
1. Direct API
Spark Streaming 自成立以来一直支持 Kafka,Spark Streaming 与 Kafka 在生产环境中的很多地方一起使用。但是,Spark 社区要求更好的容错保证和更强的可靠性语义。为了满足这一需求,Spark 1.2 引入了 预写日志 Write Ahead Logs
(WALÿ
以上是关于Spark Streaming 基于 Direct API 优化与 Kafka 集成的主要内容,如果未能解决你的问题,请参考以下文章
Spark 学习笔记之 Streaming和Kafka Direct
Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一
Spark Streaming实时流处理项目实战Spark Streaming整合Kafka实战一