我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?
Posted
技术标签:
【中文标题】我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?【英文标题】:Can I use spark 2.3.0 and pyspark to do stream processing from Kafka? 【发布时间】:2018-08-10 14:53:24 【问题描述】:我打算用 pyspark 做流处理,用 Kafka 作为数据源。
我发现 Spark Python API 不支持 Kafka 0.10 连接器。
我可以在 Spark 2.3.0 中使用 Kafka 0.8 连接器,无论它已被弃用吗?
【问题讨论】:
【参考方案1】:已弃用,但未删除。你可以使用它。
但是,您可能对结构化流感兴趣,它在 Python 中支持 Kafka 0.10 - 链接 here。这是 Spark 中新的 Streaming API,它将取代 DStreams
【讨论】:
我相信 OP 不喜欢你的回答,因此投了反对票。以上是关于我可以使用 spark 2.3.0 和 pyspark 从 Kafka 进行流处理吗?的主要内容,如果未能解决你的问题,请参考以下文章
YMatrix + PLPython替代Spark实现车联网算法
使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name
我可以将 Pyspark RDD 用作 Pandas DataFrame 吗? Pyspark/spark 在数据分析中对 Pandas 的限制?
Pyspark - 配置 Amazon Redshift JDBC jar