使用多个蜘蛛无头运行 Selenium

Posted

技术标签:

【中文标题】使用多个蜘蛛无头运行 Selenium【英文标题】:Running Selenium headless with multiple spiders 【发布时间】:2016-06-17 02:41:45 【问题描述】:

我有许多使用scrapyd 并行运行的scrapy 蜘蛛。我正在做的是类似于下面的代码。

我的问题是,我真的需要为每个蜘蛛启动一个显示器吗?驱动程序如何知道开始使用哪个显示器?我应该只全局启动一个显示并在同一个显示中启动多个 webdriver 实例吗?

def __init__(self):
    dispatcher.connect(self.spider_closed, signals.spider_closed)

def spider_closed(self, spider):
    if self.driver:
        self.driver.quit()

    if self.display:
        self.display.stop()

def parse(self, response):
    self.display = Display(visible=0, size=(1024, 768))
    self.display.start()
    self.driver = webdriver.Firefox()

    self.driver.get(response.url)
    page = Selector(text=self.driver.page_source)

    # doing all parsing etc

【问题讨论】:

【参考方案1】:

我建议改用splinter 浏览器处理程序;它是硒的包装。它完全解决了您的问题,因为显示处理是由包完成的。

通过安装更多软件包,您还可以完全不需要 Display,这意味着 splinter 现在是无头的(浏览器窗口不会打开,而且速度要快得多)。查看Splinter docs 了解如何制作无头。我个人建议使用 PhantomJS 驱动程序,即使您必须安装非 Python PhantomJS 程序。

【讨论】:

以上是关于使用多个蜘蛛无头运行 Selenium的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy - 如何启动同一个蜘蛛进程的多个实例?

Python - Firefox 无头

如何使用无头浏览器运行测试?

在没有 GUI 的情况下运行 Android 模拟器(无头 Android)

有没有办法在无头模式下运行 QtWebEngine

如何使用机器人框架运行无头 REMOTE chrome