我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗？

Posted 2023-03-10

技术标签:

【中文标题】我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗？【英文标题】：Can I use spark 2.3.0 and pyspark to do stream processing from Kafka? 【发布时间】：2018-08-10 14:53:24 【问题描述】：

我打算用 pyspark 做流处理，用 Kafka 作为数据源。

我发现 Spark Python API 不支持 Kafka 0.10 连接器。

我可以在 Spark 2.3.0 中使用 Kafka 0.8 连接器，无论它已被弃用吗？

【问题讨论】：

【参考方案1】：

已弃用，但未删除。你可以使用它。

但是，您可能对结构化流感兴趣，它在 Python 中支持 Kafka 0.10 - 链接 here。这是 Spark 中新的 Streaming API，它将取代 DStreams

【讨论】：

我相信 OP 不喜欢你的回答，因此投了反对票。

以上是关于我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗？的主要内容，如果未能解决你的问题，请参考以下文章

YMatrix + PLPython替代Spark实现车联网算法

使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name