在 Azure 批处理上运行 Selenium 并行测试
Posted
技术标签:
【中文标题】在 Azure 批处理上运行 Selenium 并行测试【英文标题】:Run Selenium parallel test on Azure batch 【发布时间】:2019-04-28 00:27:20 【问题描述】:我在 Windows 7 上使用最新版本的 R。
我想使用RSelenium
并行运行许多测试所以,我的问题是:
RSelenium
测试的推荐方法是什么?
假设我要运行 1000 个测试,每个步骤需要 1 小时。一项一项地运行测试需要很多时间(每天 24 次测试,因此总共需要 42 天)。我知道如何使用 doParallel 和 foreach 包在我的机器上并行运行测试:Run RSelenium in parallel, 但有时,这还不够。我想并行运行大约 100 个测试。我尝试为此使用 Azure Batch,但在启动 selenium 服务器时在某些节点上会出现很多错误。
更具体地说,我已经写了dockerfile:
FROM rocker/r-base:latest
RUN apt-get update \
&& apt-get install -y --no-install-recommends \
libxml2-dev \
libcurl4-openssl-dev \
libssl-dev \
gnupg2 \
libfftw3-dev \
libtiff-dev \
libx11-dev \
libcairo2-dev \
libxt-dev \
firefox
#RUN add-apt-repository -y ppa:mozillateam/firefox-next
## Install Java
RUN echo "deb http://ppa.launchpad.net/webupd8team/java/ubuntu trusty main" \
| tee /etc/apt/sources.list.d/webupd8team-java.list \
&& echo "deb-src http://ppa.launchpad.net/webupd8team/java/ubuntu trusty main" \
| tee -a /etc/apt/sources.list.d/webupd8team-java.list \
&& apt-key adv --keyserver keyserver.ubuntu.com --recv-keys EEA14886 \
&& echo "oracle-java8-installer shared/accepted-oracle-license-v1-1 select true" \
| /usr/bin/debconf-set-selections \
&& apt-get update \
&& apt-get install -y oracle-java8-installer \
&& update-alternatives --display java \
&& rm -rf /var/lib/apt/lists/* \
&& apt-get clean \
&& R CMD javareconf
## make sure Java can be found in rApache and other daemons not looking in R ldpaths
RUN echo "/usr/lib/jvm/java-8-oracle/jre/lib/amd64/server/" > /etc/ld.so.conf.d/rJava.conf
RUN /sbin/ldconfig
# Install the R Packages from CRAN
RUN Rscript -e 'install.packages(c("Cairo", "Rcpp", "RSelenium", "httr", "rvest", "imager", "RCurl"))'
我曾使用doAzureParallel
包并行执行多个脚本:
# prepare Azure batch
setwd("E:/data/R/web_scraping/zk_ba/azure")
library(doAzureParallel)
setVerbose(TRUE)
setAutoDeleteJob(FALSE)
generateCredentialsConfig("credentials.json")
setCredentials("credentials.json")
generateClusterConfig("cluster.json")
cluster <- makeCluster("cluster.json")
registerDoAzureParallel(cluster)
getDoParWorkers()
opt <- list(wait = FALSE)
jobId <- foreach(
i = 1:n_cluster,
# .packages = c("RSelenium", "imager", "httr", "RCurl", "rvest"),
# .combine = 'rbind',
.errorhandling = "pass",
.options.azure = opt,
.export = c("metadata", "first_step", "parcele_df", "vlasnici_df", "status_teret_df", "n_cluster")
) %dopar%
library(RSelenium)
library(imager)
library(httr)
library(RCurl)
library(rvest)
#-----------------------------------#
# START SELENIUM AND PREPARE #
#-----------------------------------#
if (first_step == TRUE)
tryCatch(
rD <<- RSelenium::rsDriver(
browser = "firefox",
extraCapabilities = list(
"moz:firefoxOptions" = list(
args = list('--headless')
)
)
)
, error = function(e) NA)
driver <<- rD$client
driver$open()
driver$navigate("http://www.e-grunt.ba/")
Sys.sleep(3L)
..
但在许多节点上都会返回错误:
<simpleError in checkError(res): Undefined error in httr call. httr output: Failed to connect to localhost port 4567: Connection refused>
在我们需要在大量并行测试中使用 RSelenium 的情况下,一般建议是什么?
【问题讨论】:
但我认为我必须在 VM 上启动驱动程序,而不是在每个节点上,而且我正在使用 4 个 VM 和 4 个节点。我不知道如果虚拟机相互独立,为什么同一个端口会成为问题。我还尝试在本地端口并行运行 Selenium 会话,并且我只调用了一次 rsDriver 函数。所有其他节点在一个端口上成功侦听了此驱动程序。 您是否尝试在 Azure DevOps 管道上运行您的案例? 【参考方案1】:RSelenium
默认连接到它在端口4567
上设置的 Selenium 服务器。只要其中一个并行节点通过此端口连接到服务器,其他节点就无法通过此端口连接。
一种解决方案是在foreach
循环中将以下参数添加到rsDriver
:
rD <<- RSelenium::rsDriver(
port = 4567L + as.integer(i),
browser = "firefox",
extraCapabilities = list(
"moz:firefoxOptions" = list(
args = list('--headless')
)
)
您可能需要检查端口与其他应用程序的冲突。
【讨论】:
以上是关于在 Azure 批处理上运行 Selenium 并行测试的主要内容,如果未能解决你的问题,请参考以下文章
在 Azure DevOps 发布管道中运行 Java Selenium 测试
Azure Pipeline Selenium 测试筛选器不起作用
无法将azure注册表中的docker镜像托管到azure批处理
是否可能:Web App 中的 Selenium 在运行时传递脚本