Python中的分布式计算 - 网络爬虫

Question

我的目标是构建一个分布式爬虫，一次处理多个网站，也可以处理多个查询。为此，我使用标准包（如'requests'和'BeautifulSoup'）在Python中构建了一个Web爬虫。它工作正常。为了使其分发，我使用了rabbitMQ。它使我能够通过多个进程帮助爬行来加快系统运行速度。

我的系统在工作池模型中工作：

我有一个主服务器接收查询并为每个服务器开始新的爬网。
开始抓取时，通过将查询输入搜索引擎来收集一些网址。
从现在开始，主服务器使用rabbitMQ将URL发送到可用的worker /进程，并等待从它们接收更多url。

但是，我在这个体系结构中有一个巨大的瓶颈，它不是主服务器...... rabbitMQ不允许我一次消耗超过1条消息（channel.basic_qos（）函数不起作用！）。我想要的是为每个查询创建一个私有队列（就像我现在一样），并且能够尽可能快地同时处理这两个查询。通过这种方式，并行化工作人员代码，以便它可以处理最大数量的网址，而不是一次处理1个网址。

我应该用什么来替换这里的rabbitMQ？我特意到达了RabbitMQ的开发人员，我想要的东西无法完成，所以我试图找到一个不同的“分发包”。也许卡夫卡？