具有多个接收器的 pyspark 并行处理
Posted
技术标签:
【中文标题】具有多个接收器的 pyspark 并行处理【英文标题】:pyspark parallel processing with multiple receivers 【发布时间】:2015-09-08 16:06:36 【问题描述】:我正在尝试使用 Spark 实现并行处理。我想在 spark 中创建多个接收器(不仅仅是线程)来接收来自 kafka 的流数据。我找到了一个链接,指示如何使用 scala 执行此操作(请参见下面的链接)。但我找不到 pyspark 的类似代码。有人可以帮忙吗?
why I only can see one spark streaming kafkaReceiver
【问题讨论】:
【参考方案1】:numStreams = 5
kafkaStreams = [KafkaUtils.createStream(...) for _ in range (numStreams)]
unifiedStream = streamingContext.union(*kafkaStreams)
unifiedStream.pprint()
您可以从this 教程中获得所有其他信息。部分 - 数据接收中的并行级别。
【讨论】:
请添加更多细节。以上是关于具有多个接收器的 pyspark 并行处理的主要内容,如果未能解决你的问题,请参考以下文章