具有多个接收器的 pyspark 并行处理

Posted

技术标签:

【中文标题】具有多个接收器的 pyspark 并行处理【英文标题】:pyspark parallel processing with multiple receivers 【发布时间】:2015-09-08 16:06:36 【问题描述】:

我正在尝试使用 Spark 实现并行处理。我想在 spark 中创建多个接收器(不仅仅是线程)来接收来自 kafka 的流数据。我找到了一个链接,指示如何使用 scala 执行此操作(请参见下面的链接)。但我找不到 pyspark 的类似代码。有人可以帮忙吗?

why I only can see one spark streaming kafkaReceiver

【问题讨论】:

【参考方案1】:
numStreams = 5
kafkaStreams = [KafkaUtils.createStream(...) for _ in range (numStreams)]
unifiedStream = streamingContext.union(*kafkaStreams)
unifiedStream.pprint()

您可以从this 教程中获得所有其他信息。部分 - 数据接收中的并行级别。

【讨论】:

请添加更多细节。

以上是关于具有多个接收器的 pyspark 并行处理的主要内容,如果未能解决你的问题,请参考以下文章

Python / PySpark并行处理示例

并发&并行 同步&异步 GIL 任务 同步锁 死锁 递归锁

Python/PySpark 并行处理示例

ejabberd:并行处理具有不同命名空间的多个数据包

python 同步异步,并发并行,同步锁

python-并发并行同步异步同步锁