我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?

Posted

技术标签:

【中文标题】我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?【英文标题】:Can I use spark 2.3.0 and pyspark to do stream processing from Kafka? 【发布时间】:2018-08-10 14:53:24 【问题描述】:

我打算用 pyspark 做流处理,用 Kafka 作为数据源。

我发现 Spark Python API 不支持 Kafka 0.10 连接器。

我可以在 Spark 2.3.0 中使用 Kafka 0.8 连接器,无论它已被弃用吗?

【问题讨论】:

【参考方案1】:

已弃用,但未删除。你可以使用它。

但是,您可能对结构化流感兴趣,它在 Python 中支持 Kafka 0.10 - 链接 here。这是 Spark 中新的 Streaming API,它将取代 DStreams

【讨论】:

我相信 OP 不喜欢你的回答,因此投了反对票。

以上是关于我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?的主要内容,如果未能解决你的问题,请参考以下文章

YMatrix + PLPython替代Spark实现车联网算法

使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name

我可以将 Pyspark RDD 用作 Pandas DataFrame 吗? Pyspark/spark 在数据分析中对 Pandas 的限制?

Pyspark - 配置 Amazon Redshift JDBC jar

Spark 2.3.0 SQL 无法将数据插入 hive hbase 表

在数据集中拆分字符串 Apache Spark